亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

人工智能通过深度学习动作转移将业余舞者转变为专业人士

人工智能正在重塑从消费电子产品到太空探索等行业,这一最新创新展示了其在艺术领域的变革力量。加州大学的研究人员开发了一种动作转移算法,可以将源舞者的动作映射到目标表演者上,甚至使一个随意的参与者看起来像经验丰富的芭蕾舞演员或流行偶像。

核心思想很简单:“照我做的做”。几分钟之内,该系统就可以将专业的舞蹈动作叠加到目标主题上,为表演者、教育工作者和内容创作者开辟新的创作可能性。

技术如何运作

该过程首先从源视频和目标视频中提取基于关键点的姿势骨架。这些姿势简笔画提供了一种轻量级、与外观无关的身体位置表示,使模型能够只关注运动。

人工智能通过深度学习动作转移将业余舞者转变为专业人士

每帧的姿势都是由监督姿势估计算法生成的,从而产生准确的简笔画。然后,运动传输模型摄取这些骨骼,生成模仿源姿势的目标图像,同时保留目标的外观。通过将姿势传输模块与生成细化网络融合,对最终输出进行细化,从而提供更清晰、更真实的帧。

工作流程分为三个阶段:

  1. 姿势检测 - 从源素材和目标素材中提取 2D 关键点。
  2. 全局姿势标准化 - 对齐各个主体的骨骼。
  3. 姿势映射 - 合成与源姿势匹配的目标帧。

为了确保时间平滑性,该算法将当前帧的姿态与先前生成的帧混合,从而显着减少抖动。对于低帧速率输入,应用中值滤波器;对于高帧速率视频(高达 120fps),使用关键点的高斯平滑。

高保真结果是通过集成条件生成对抗网络 (cGAN) 来实现的,该网络经过每个主题超过 20 分钟的高帧率业余舞蹈镜头的训练。 NVIDIA 开发的 pix2pixHD 架构是图像转换管道的骨干。

参考:arXiv:1808.07371

使用具有 CUDA 加速功能的 PyTorch 在 NVIDIA GeForce GTX1080Ti 和 TITANXp GPU 上进行训练和推理。

未来方向

该算法目前支持跨多种主题的运动传输,而无需专门的硬件。然而,偶尔的抖动仍然存在,特别是当源的运动速度超过训练期间看到的范围时。正在进行的研究重点是优化姿势估计方法和扩展运动库以减轻这些伪影。

有关相关突破,请参阅:NVIDIA AI 可将 30fps 视频转换为 240fps

工业技术

  1. 装卸筒仓时的安全注意事项
  2. IIoT 设备、分析支持服务化优势
  3. VPI:新加坡热带气候下电机可靠性的最终选择
  4. 研究人员提出了一种使物体隐形的新方法
  5. 现场工程聚焦:Trey Sinkfield
  6. 人工智能不是应用程序;这是一种方法
  7. 12 项将改变我们未来的新兴电子技术
  8. 3D 打印技术的类型
  9. 3D 晶格结构:设计元素和机械响应
  10. 日立能源为关键任务工业和公用事业运营带来 5G 连接
  11. 边缘计算制造商指南
  12. 晶体管 MESFET:你需要知道的一切