Samsung AI 可以从一张照片中创建会说话的镜头
- 一种新的 AI 模型可以从单个图像中制作会说话的头像。
- 开发人员将此模型应用于流行画作,包括列奥纳多·达·芬奇和蒙娜丽莎。
- 结果有一些视觉上的故障,但它们比以前的技术令人印象深刻。
用于生成深度伪造(一种基于人工智能的人类图像合成技术)的软件需要大量图像来构建逼真的伪造品。神经网络的最新进展表明,如何通过在广泛的数据集上训练网络来获得高度逼真的人体图像。
然而,莫斯科三星研究中心的开发人员现在开发了一种新的人工智能 (AI) 模型,可以从单个图像创建会说话的化身。虽然可以从一张图片制作视频剪辑,但通过多张图片进行训练可以更好地识别保存和更高的真实感。
该模型生成的说话头可以处理各种姿势,包括超出基于扭曲的系统能力的姿势。您可能会发现一些视觉故障,但与以前的技术相比,结果令人印象深刻。该模型导致创建最终与真实视频难以区分的多媒体。
所涉及的挑战
制作逼真的说话头像序列之所以困难,主要有两个原因——
- 人的头部具有很高的运动学、几何学和光度学复杂性。必须对头发、眼睛、口腔和许多其他元素进行准确建模。
- 视觉系统对人类头部外观建模中的微小错误的敏锐度。
为了解决这些问题,新的 AI 模型在学习过程中创建了三个神经网络。它构建了一个嵌入式网络,将人脸地标帧与向量连接起来。然后它构建一个生成器网络将地标映射到合成剪辑中。在最后一步,鉴别器网络评估帧的姿态和真实性。
参考:arXiv:1905.08233 | YouTube
为了更好地理解面部标志和动作,研究人员在数千个人类谈话的 YouTube 视频上训练了网络。然后通过定量测量将结果(说话人)与替代神经网络进行比较。
结果
该团队将该模型应用于许多流行人物的图像,例如蒙娜丽莎、达芬奇和阿尔伯特爱因斯坦。 AI 能够从单个图像中制作谈话视频,将经典肖像带入生活。创建视频只需要一张照片。然而,在 32 张图片上训练的模型可以获得更好的个性化分数和完美的真实感。
这种类型的人工智能在远程呈现方面可以有多种实际应用,包括多人游戏、视频会议以及特效行业。
阅读:IBM 开发了一种可检测视频中场景的 AI
不利的一面是,此类技术的快速发展可能会增加错误信息、冒充、欺诈和选举篡改的风险。
工业技术