谷歌的新人工智能在拥挤的环境中精确定位个人的声音

人类非常擅长在拥挤的区域中选择特定的声音，从而消除所有其他声音。然而，这对于机器来说仍然是一个严峻的挑战。当两个或更多人说话或存在背景噪音时，它们仍然不擅长分离个人语音。

现在，谷歌开发了一种基于深度学习的视听模型，可以专注于混合声音和背景噪声中的单个音频信号。人工智能可以分析视频并增强某些人的声音，同时抑制所有其他声音。

它不需要任何特殊的音频或视频格式；它适用于所有常见的视频格式和一个音轨。用户可以在视频中选择他/她想听的特定面孔，或者让算法根据上下文来执行此操作。

该技术结合视频的视觉和听觉信号来分离声音。算法可以根据嘴部动作识别当前正在说话的人。这些视觉信号显着提高了混合语音中语音分离的质量，并将音轨与可见的说话人相关联。

工程师们收集了大量优质的脱口秀和讲座的 YouTube 视频来制作训练样本。然后他们从这些视频中过滤了 2000 小时的剪辑。经过过滤的视频具有干净的声音 - 没有观众噪音、混合音乐和背景干扰。

然后，他们使用这些内容创建面部视频及其相关语音和来自不同来源的背景噪声的组合。他们训练了多流卷积神经网络 将单个说话者的声音从混合语音视频中分离出来。

每帧中音轨的频谱图表示和说话者的脸部缩略图（从视频中提取）都被插入到神经网络中。网络逐渐学习（训练期）如何对听觉和视觉信号进行编码并将它们融合在一起以创建单个视听内容。

同时，网络还学习为各个说话者提供时频掩模。然后将噪声输入频谱图乘以掩模，以输出干净的语音，同时粉碎干扰和噪声。

实施细节

该网络在TensorFlow（开源机器学习框架）上实现，其运算用于执行波形和短时傅立叶变换。所有网络层（不包括掩模层）都遵循修正线性单元激活。

对所有卷积层执行批量归一化。为此，他们使用了 6 个样本的批量大小并训练了 500 万个批次（步骤）。音频被重新采样为 16 KHz，立体声音频被转换为单声道以计算短时傅立叶变换。

参考：arXiv：1804.03619 |谷歌研究

在训练之前，所有面部嵌入都会重新采样至每秒 25 帧，从而产生包含 75 个面部嵌入的输入视觉流。当在特定样本中遇到丢失帧时，他们使用零向量。

该技术可以有无数的应用，从视频中的音频识别到语音增强，尤其是在多人讲话的情况下。它将拓宽可在各种音频环境中使用的麦克风类型。但就目前而言，YouTube 和环聊似乎是两个简单的起点。最终，它可以应用于语音放大耳机和谷歌眼镜。

阅读：谷歌开发了与人类没有区别的语音人工智能 |塔科特隆2

此外，该技术有潜力通过预处理语音识别来为重叠说话者提供更好的视频字幕系统。此功能将使聋人更轻松地参加电话会议和欣赏电影视频。

工业技术