Samsung AI 可以从一张照片中创建会说话的镜头

用于生成深度伪造（一种基于人工智能的人类图像合成技术）的软件需要大量图像来构建逼真的伪造品。神经网络的最新进展表明，如何通过在广泛的数据集上训练网络来获得高度逼真的人体图像。

然而，莫斯科三星研究中心的开发人员现在开发了一种新的人工智能 (AI) 模型，可以从单个图像创建会说话的化身。虽然可以从一张图片制作视频剪辑，但通过多张图片进行训练可以更好地识别保存和更高的真实感。

该模型生成的说话头可以处理各种姿势，包括超出基于扭曲的系统能力的姿势。您可能会发现一些视觉故障，但与以前的技术相比，结果令人印象深刻。该模型导致创建最终与真实视频难以区分的多媒体。

制作逼真的说话头像序列之所以困难，主要有两个原因——

为了解决这些问题，新的 AI 模型在学习过程中创建了三个神经网络。它构建了一个嵌入式网络，将人脸地标帧与向量连接起来。然后它构建一个生成器网络将地标映射到合成剪辑中。在最后一步，鉴别器网络评估帧的姿态和真实性。

参考：arXiv:1905.08233 | YouTube

为了更好地理解面部标志和动作，研究人员在数千个人类谈话的 YouTube 视频上训练了网络。然后通过定量测量将结果（说话人）与替代神经网络进行比较。

该团队将该模型应用于许多流行人物的图像，例如蒙娜丽莎、达芬奇和阿尔伯特爱因斯坦。 AI 能够从单个图像中制作谈话视频，将经典肖像带入生活。创建视频只需要一张照片。然而，在 32 张图片上训练的模型可以获得更好的个性化分数和完美的真实感。

这种类型的人工智能在远程呈现方面可以有多种实际应用，包括多人游戏、视频会议以及特效行业。

阅读：IBM 开发了一种可检测视频中场景的 AI

不利的一面是，此类技术的快速发展可能会增加错误信息、冒充、欺诈和选举篡改的风险。

工业技术