Facebook AI 改变了不同流派和乐器的音乐

说到音乐，人类一直创造性地复制歌曲，并通过拍手、吹口哨或在不同的乐器上演奏将其变成各种其他形式。

尽管音乐是最早被计算机和算法数字化和处理的领域之一，但今天的人工智能在模仿音频方面仍然远远不如人类。

现在Facebook AI研究团队开发了一种通用音乐翻译网络，可以将音乐从一种形式转换为另一种形式。它复制它听到的音乐，并以不同的风格、流派和乐器播放。

该AI系统基于2项最新技术

自回归模型被训练为解码器，它们可以产生高质量和逼真的音频。第二项技术负责使事情变得更加实用，因为在监督环境中管理学习问题需要大量乐器的大型数据集。

研究人员开发了通用编码器并将其应用于每个输入。这消除了训练整个网络的负担，并能够将未听过的音乐领域转换为遇到的任何其他领域。

网络架构|域混淆仅在训练期间应用

他们[通过域混淆网络]训练通用编码器，同时确保特定于域的数据不被编码。通用编码器不会记住输入数据，而是以语义方式对其进行编码。为此，研究人员通过随机局部音调调制来扭曲输入信号（音频格式）。

参考：arXiv:1805.07848

由于网络被训练为去噪自动编码器，因此它能够恢复原始输入信号的未失真形式。系统逐渐学习将域外输入信号投射到适当的输出域。

研究人员在 6 种古典音乐领域训练了他们的网络，其中包括来自这些领域的数千个样本。他们在 8 个 NVIDIA Tesla V100 GPU 上执行了 cuDNN 加速的 PyTorch 深度学习框架。他们花了 8 天的时间来完全训练网络。

人工智能虽然不如专业音乐人，但很多时候，听众都很难分辨哪一首是原始音频，哪一首是人工生成的。

该系统可以有效地处理闻所未闻的音乐源，例如拍手声或口哨声，并产生优质的音频。人们可以集成新的乐器，而无需重新训练整个网络。

阅读：Facebook 人工智能机器人关闭 – 到底发生了什么？

据开发人员称，他们的工作可能为其他复杂任务打开新的大门，例如音乐的自动作曲和转录。此外，通过减少潜在空间大小，可以使解码器更具“创造性”，这使其能够生成令人兴奋的自然输出，因为与原始音频的关联丢失了。

工业技术