亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

谷歌的新人工智能在拥挤的环境中精确定位个人的声音

人类非常擅长在拥挤的区域中选择特定的声音,从而消除所有其他声音。然而,这对于机器来说仍然是一个严峻的挑战。当两个或更多人说话或存在背景噪音时,它们仍然不擅长分离个人语音。

现在,谷歌开发了一种基于深度学习的视听模型,可以专注于混合声音和背景噪声中的单个音频信号。人工智能可以分析视频并增强某些人的声音,同时抑制所有其他声音。

它不需要任何特殊的音频或视频格式;它适用于所有常见的视频格式和一个音轨。用户可以在视频中选择他/她想听的特定面孔,或者让算法根据上下文来执行此操作。

该技术结合视频的视觉和听觉信号来分离声音。算法可以根据嘴部动作识别当前正在说话的人。这些视觉信号显着提高了混合语音中语音分离的质量,并将音轨与可见的说话人相关联。

它是如何制作的?

工程师们收集了大量优质的脱口秀和讲座的 YouTube 视频来制作训练样本。然后他们从这些视频中过滤了 2000 小时的剪辑。经过过滤的视频具有干净的声音 - 没有观众噪音、混合音乐和背景干扰。

然后,他们使用这些内容创建面部视频及其相关语音和来自不同来源的背景噪声的组合。他们训练了多流卷积神经网络 将单个说话者的声音从混合语音视频中分离出来。

每帧中音轨的频谱图表示和说话者的脸部缩略图(从视频中提取)都被插入到神经网络中。网络逐渐学习(训练期)如何对听觉和视觉信号进行编码并将它们融合在一起以创建单个视听内容。

同时,网络还学习为各个说话者提供时频掩模。然后将噪声输入频谱图乘以掩模,以输出干净的语音,同时粉碎干扰和噪声。



实施细节

该网络在TensorFlow(开源机器学习框架)上实现,其运算用于执行波形和短时傅立叶变换。所有网络层(不包括掩模层)都遵循修正线性单元激活。

对所有卷积层执行批量归一化。为此,他们使用了 6 个样本的批量大小并训练了 500 万个批次(步骤)。音频被重新采样为 16 KHz,立体声音频被转换为单声道以计算短时傅立叶变换。

参考:arXiv:1804.03619 |谷歌研究

在训练之前,所有面部嵌入都会重新采样至每秒 25 帧,从而产生包含 75 个面部嵌入的输入视觉流。当在特定样本中遇到丢失帧时,他们使用零向量。

应用程序

该技术可以有无数的应用,从视频中的音频识别到语音增强,尤其是在多人讲话的情况下。它将拓宽可在各种音频环境中使用的麦克风类型。但就目前而言,YouTube 和环聊似乎是两个简单的起点。最终,它可以应用于语音放大耳机和谷歌眼镜。



阅读:谷歌开发了与人类没有区别的语音人工智能 |塔科特隆2

此外,该技术有潜力通过预处理语音识别来为重叠说话者提供更好的视频字幕系统。此功能将使聋人更轻松地参加电话会议和欣赏电影视频。


工业技术

  1. Trillium 项目:Arm 先进机器学习平台详解
  2. 开关设备故障:改造、修复还是更换?
  3. 从农场到工厂再到餐桌:食品和饮料制造业
  4. 宾夕法尼亚州研发税收抵免申请截止日期为 9 月 15 日
  5. 自动化伦理:未来的持续挑战
  6. 比较谐波和摆线传动:扭矩、精度和耐用性
  7. 基准标记设计不良对PCB印刷质量的影响
  8. 工人培训计划能否解决制造业中的技能差距?
  9. 您如何知道苏尔寿的排气阀是否在旋转?
  10. 如何使用 IIoT 解决方案在大流行期间确保供应链工人的安全
  11. 数控车床切削刀具:定义、类型和优点
  12. 追求价值,良好的数据是 2019 年医疗保健供应链趋势的基础