Facebook AI 改变了不同流派和乐器的音乐
- Facebook 人工智能研究团队构建了一个通用音乐翻译网络。
- 它会复制听到的音频,并以各种风格、流派和乐器进行播放。
- 它可以处理闻所未闻的音乐源(例如拍手声或口哨声),并生成高质量的音频。
说到音乐,人类一直创造性地复制歌曲,并通过拍手、吹口哨或在不同的乐器上演奏将其变成各种其他形式。
尽管音乐是最早被计算机和算法数字化和处理的领域之一,但今天的人工智能在模仿音频方面仍然远远不如人类。
现在Facebook AI研究团队开发了一种通用音乐翻译网络,可以将音乐从一种形式转换为另一种形式。它复制它听到的音乐,并以不同的风格、流派和乐器播放。
他们是怎么做到的?
该AI系统基于2项最新技术
- 通过自回归模型合成高质量音频
- 以无人监督的方式在域之间进行转换
自回归模型被训练为解码器,它们可以产生高质量和逼真的音频。第二项技术负责使事情变得更加实用,因为在监督环境中管理学习问题需要大量乐器的大型数据集。
研究人员开发了通用编码器并将其应用于每个输入。这消除了训练整个网络的负担,并能够将未听过的音乐领域转换为遇到的任何其他领域。
网络架构|域混淆仅在训练期间应用
他们[通过域混淆网络]训练通用编码器,同时确保特定于域的数据不被编码。通用编码器不会记住输入数据,而是以语义方式对其进行编码。为此,研究人员通过随机局部音调调制来扭曲输入信号(音频格式)。
参考:arXiv:1805.07848
由于网络被训练为去噪自动编码器,因此它能够恢复原始输入信号的未失真形式。系统逐渐学习将域外输入信号投射到适当的输出域。
研究人员在 6 种古典音乐领域训练了他们的网络,其中包括来自这些领域的数千个样本。他们在 8 个 NVIDIA Tesla V100 GPU 上执行了 cuDNN 加速的 PyTorch 深度学习框架。 他们花了 8 天的时间来完全训练网络。
结果
人工智能虽然不如专业音乐人,但很多时候,听众都很难分辨哪一首是原始音频,哪一首是人工生成的。
该系统可以有效地处理闻所未闻的音乐源,例如拍手声或口哨声,并产生优质的音频。人们可以集成新的乐器,而无需重新训练整个网络。
阅读:Facebook 人工智能机器人关闭 – 到底发生了什么?
据开发人员称,他们的工作可能为其他复杂任务打开新的大门,例如音乐的自动作曲和转录。此外,通过减少潜在空间大小,可以使解码器更具“创造性”,这使其能够生成令人兴奋的自然输出,因为与原始音频的关联丢失了。
工业技术