人工智能可以从神经活动生成语音
- 研究人员使用循环神经网络来帮助瘫痪且无法交流的人。
- 该网络将神经活动转换为语音声学。
- 它可以帮助患者以自然的语速交流不受限制的词汇。
许多神经系统疾病会导致失去交流,让患者完全依赖辅助设备。这些设备使他们能够以高达每分钟 10 个单词的速度逐个字符地键入句子。然而,与每分钟约 150 个单词的日常对话相比,这个速度太慢了。
为了实现更高甚至自然的交流速率,加州大学旧金山分校的研究人员使用了一种仿生方法,该方法强调声道运动和它们产生的声音。
他们已经表明,可以直接从大脑信号中生成合成语音。这些信号精确地协调大约 100 块肌肉来移动嘴唇、舌头、下巴和喉部,将呼吸塑造成声音,最终形成单词和句子。
该团队记录了 5 名正在接受癫痫(一种神经系统疾病)治疗的参与者的高密度皮层电图信号。所有参与者都被要求大声朗读句子,同时放置在他们大脑表面的电极测量由此产生的信号。
循环神经网络
研究人员开发了一个循环神经网络来解码皮质信号,并具有明确的发音动力学中间表示,并最终合成可听语音。
参考:自然 | DOI:10.1038/s41586-019-1119-1 |加州大学旧金山分校
神经网络根据参与者大声说出句子的声音以及皮层信号进行训练。他们使用 ADAM 优化器来训练算法。对于第一阶段和第二阶段的训练,batch size 分别为 256 和 25。
堆叠的深度编码器-解码器网络明确地结合了大脑信号来解码神经活动的主要生理相关性,然后将其转换为语音声学。它经过优化,可以直接从电极解码声学。
从神经解码的口语句子合成语音 |研究人员提供
这种统计映射可以使用有限的训练数据集进行泛化。研究人员能够在 25 分钟的演讲中获得令人满意的表现,并且随着他们提供更多数据,表现不断提高。
下一步是什么?
该研究提出了一种解决神经系统疾病患者所造成的巨大障碍的先进方法。根据泛化结果,说话者共享一个类似的运动状态空间表示,它独立于说话者。模型知识——将运动学映射到参与者之间的声音——可以转移。
利用这种来自不同人的神经活动的低维表示可以促进脑机接口学习。该研究结果可为瘫痪患者实现语音恢复打开新的大门。
阅读:人工智能可以阅读研究论文并提供简单的英文摘要
本研究中开发的神经网络提供了以自然语速交流不受限制的词汇的能力。这种直接的语音合成方法可以捕捉语音的韵律元素,包括文本输出无法使用的音调。此外,对于关节皮质处理仍然完好的患者,学习使用可能更容易和直观。
工业技术