Google 的新 AI 可以创建仅包含开始和结束帧的视频
- 新的 3D 卷积神经网络可以填充开始帧和结束帧之间的序列。
- 它使用潜在表示生成器来生成各种视频序列。
人工神经网络架构和生成对抗网络的最新进展促进了图像/视频合成方法的发展。现有的研究大多集中在两个操作上:无条件视频生成和视频预测。它们都涉及使用有限数量的过去帧生成/预测新的似是而非的视频。
最近,谷歌的一个研究团队专注于在只有两帧(开始帧和结束帧)可用时创建多样化和合理的视频序列的问题。该过程称为中间,通常通过使用门控循环单元或长短期记忆训练/运行循环神经网络来执行。
然而,在这项研究中,研究人员表明这个问题(中间)可以通过 3D 卷积神经网络解决。这种方法的一个主要优点是简单。由于它不使用循环元素,更短的梯度路径可以实现更深的网络和更稳定的训练。
全卷积模型
在卷积网络中,很容易强制执行与开始和结束帧(作为输入提供)的时间一致性。该模型有 3 个关键组件 –
- 用于将输入关键帧映射到潜在空间的 2D 卷积图像编码器。
- 一种 3D 卷积潜在表示生成器,用于将输入帧的数据与逐渐增加的时间分辨率结合起来。
- 用于将潜在表示解码为视频帧的视频生成器。
参考:arXiv:1905.10240 |英伟达
该团队试图直接从开始和结束帧的编码表示创建视频,但结果并不理想。这就是为什么他们设计了潜在表示生成器,它随机融合关键帧表示,并稳步提高最终视频的时间分辨率。
测试
该团队在各种公开可用的数据集上测试了他们的模型,包括 UCF101 动作识别、BAIR 和 KTH 动作数据库。
新模型创建的框架示例 |研究人员提供
最终结果:数据集中的每个样本总共包含 16 帧,其中 14 帧是由卷积神经网络生成的。模型对每一对关键帧执行一百多次,整个过程对每个模型变体重复 10 次。
阅读:新 AI 将黑白视频实时转换为彩色
在所有情况下,该模型都能够创建逼真的视频序列,因为关键帧之间的距离约为 1/2 秒。此外,研究人员表明,通过简单地改变驱动生成过程的输入噪声向量,可以创建各种序列。这种新方法可以为未来的视频创作研究提供一个有价值的替代视角。
工业技术