Facebook 开发的 AI 能够以前所未有的准确度复制任何人的声音

近年来，机器学习技术取得了巨大进步。这些技术在识别物体、人脸和生成逼真的图像方面效果非常好。

然而，在音频方面，人工智能有点令人失望。即使是最好的文本转语音系统也缺乏基本功能，例如语调变化。你听过史蒂芬霍金机器生成的声音吗？有时，真的很难理解他的句子。

现在，Facebook AI Research 的科学家已经开发出一种方法来克服现有文本转语音系统的局限性。他们建立了一个名为 MelNet 的生成模型，可以以惊人的准确度产生人类的语调。事实上，它可以用任何人的声音流利地说话。

大多数深度学习算法都在大型音频数据库上进行训练，以重新生成真实的语音模式。这种方法的主要问题是数据的类型。通常，这些算法是针对音频波形记录进行训练的，这些记录具有复杂的结构，并且时间尺度变化很大。

这些录音代表了声音的振幅如何随时间变化：一秒钟的音频包含数万个时间步长。这些波形反映了许多不同尺度的特定模式。

现有的波形生成模型（例如 SampleRNN 和 WaveNet）只能反向传播几分之一秒。因此，他们无法捕捉到在几秒钟的范围内出现的高级结构。

另一方面，MelNet 使用频谱图（而不是音频波形）来训练深度学习网络。频谱图是 2D 时频表示，显示整个音频频谱以及它们如何随时间变化。

相同 4 秒音频内容的频谱图和波形模式

一维时域波形捕捉一个变量（幅度）随时间的变化，而频谱图捕捉不同频率的变化。因此，音频信息在频谱图中更密集。

这使 MelNet 能够在几秒钟内产生一致的无条件语音和音乐样本。它还能够进行条件语音生成和文本到语音合成，完全端到端。

参考：arXiv:1906.01083 | GitHub

为了减少信息丢失和限制过度平滑，他们分别对高分辨率频谱图进行了建模，并分别使用了具有高度表现力的自回归模型。

研究人员在大量 Ted 演讲中训练 MelNet，然后它能够在几秒钟内重新生成说话者说随机短语的声音。以下是 MelNet 使用比尔盖茨的声音说出随机短语的两个示例。

“波特酒是一种带有烟熏味的烈酒。”

“当事情变得糟糕时，我们会皱眉。”

GitHub 上提供了更多示例。

尽管 MelNet 创建了非常逼真的音频剪辑，但它无法生成更长的句子或段落。然而，该系统可以改善计算机与人的交互。

许多客户关怀对话都涉及简短的短语。 MelNet 可用于自动执行此类交互或替换当前的自动语音系统以改善呼叫者体验。

阅读：Facebook AI 将音乐从一种风格转换为另一种风格

不利的是，该技术引发了虚假音频内容新时代的幽灵。与人工智能的其他进步一样，它引发的伦理问题多于答案。

工业技术