人工智能通过深度学习动作转移将业余舞者转变为专业人士
- 突破性的深度学习系统可以在任何视频片段中复制顶级舞蹈明星的编舞。
- 它只需要普通视频输入,无需昂贵的 3D 设备或动作捕捉套装,即可产生工作室品质的效果。
人工智能正在重塑从消费电子产品到太空探索等行业,这一最新创新展示了其在艺术领域的变革力量。加州大学的研究人员开发了一种动作转移算法,可以将源舞者的动作映射到目标表演者上,甚至使一个随意的参与者看起来像经验丰富的芭蕾舞演员或流行偶像。
核心思想很简单:“照我做的做”。几分钟之内,该系统就可以将专业的舞蹈动作叠加到目标主题上,为表演者、教育工作者和内容创作者开辟新的创作可能性。
技术如何运作
该过程首先从源视频和目标视频中提取基于关键点的姿势骨架。这些姿势简笔画提供了一种轻量级、与外观无关的身体位置表示,使模型能够只关注运动。

每帧的姿势都是由监督姿势估计算法生成的,从而产生准确的简笔画。然后,运动传输模型摄取这些骨骼,生成模仿源姿势的目标图像,同时保留目标的外观。通过将姿势传输模块与生成细化网络融合,对最终输出进行细化,从而提供更清晰、更真实的帧。
工作流程分为三个阶段:
- 姿势检测 - 从源素材和目标素材中提取 2D 关键点。
- 全局姿势标准化 - 对齐各个主体的骨骼。
- 姿势映射 - 合成与源姿势匹配的目标帧。
为了确保时间平滑性,该算法将当前帧的姿态与先前生成的帧混合,从而显着减少抖动。对于低帧速率输入,应用中值滤波器;对于高帧速率视频(高达 120fps),使用关键点的高斯平滑。
高保真结果是通过集成条件生成对抗网络 (cGAN) 来实现的,该网络经过每个主题超过 20 分钟的高帧率业余舞蹈镜头的训练。 NVIDIA 开发的 pix2pixHD 架构是图像转换管道的骨干。
使用具有 CUDA 加速功能的 PyTorch 在 NVIDIA GeForce GTX1080Ti 和 TITANXp GPU 上进行训练和推理。
未来方向
该算法目前支持跨多种主题的运动传输,而无需专门的硬件。然而,偶尔的抖动仍然存在,特别是当源的运动速度超过训练期间看到的范围时。正在进行的研究重点是优化姿势估计方法和扩展运动库以减轻这些伪影。
有关相关突破,请参阅:NVIDIA AI 可将 30fps 视频转换为 240fps
工业技术