亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

Google 的新 AI 可以创建仅包含开始和结束帧的视频

人工神经网络架构和生成对抗网络的最新进展促进了图像/视频合成方法的发展。现有的研究大多集中在两个操作上:无条件视频生成和视频预测。它们都涉及使用有限数量的过去帧生成/预测新的似是而非的视频。

最近,谷歌的一个研究团队专注于在只有两帧(开始帧和结束帧)可用时创建多样化和合理的视频序列的问题。该过程称为中间,通常通过使用门控循环单元或长短期记忆训练/运行循环神经网络来执行。

然而,在这项研究中,研究人员表明这个问题(中间)可以通过 3D 卷积神经网络解决。这种方法的一个主要优点是简单。由于它不使用循环元素,更短的梯度路径可以实现更深的网络和更稳定的训练。

全卷积模型

在卷积网络中,很容易强制执行与开始和结束帧(作为输入提供)的时间一致性。该模型有 3 个关键组件 –

  1. 用于将输入关键帧映射到潜在空间的 2D 卷积图像编码器。
  2. 一种 3D 卷积潜在表示生成器,用于将输入帧的数据与逐渐增加的时间分辨率结合起来。
  3. 用于将潜在表示解码为视频帧的视频生成器。

参考:arXiv:1905.10240 |英伟达

该团队试图直接从开始和结束帧的编码表示创建视频,但结果并不理想。这就是为什么他们设计了潜在表示生成器,它随机融合关键帧表示,并稳步提高最终视频的时间分辨率。

测试

该团队在各种公开可用的数据集上测试了他们的模型,包括 UCF101 动作识别、BAIR 和 KTH 动作数据库。

新模型创建的框架示例 |研究人员提供

最终结果:数据集中的每个样本总共包含 16 帧,其中 14 帧是由卷积神经网络生成的。模型对每一对关键帧执行一百多次,整个过程对每个模型变体重复 10 次。

阅读:新 AI 将黑白视频实时转换为彩色

在所有情况下,该模型都能够创建逼真的视频序列,因为关键帧之间的距离约为 1/2 秒。此外,研究人员表明,通过简单地改变驱动生成过程的输入噪声向量,可以创建各种序列。这种新方法可以为未来的视频创作研究提供一个有价值的替代视角。


工业技术

  1. 使用 MQTT 轻松进入物联网世界
  2. 使用新草稿树脂进行快速 SLA 原型制作
  3. Google 的新 AI 可以创建仅包含开始和结束帧的视频
  4. 我们如何通过物联网简化教育?
  5. 以(网络安全)为终点
  6. 销售订单自动化如何在大流行期间创造稳定性
  7. 单一来源供应链的终结
  8. 重新思考您的供应链?从仓库开始
  9. 零售商如何减轻新运费附加费的影响
  10. 一个时代的终结,DVIRC 新篇章的开始
  11. 工业 5.0:新革命
  12. Maxim 通过工业 4.0 的新模块将智能带到边缘