Google 的新 AI 可以创建仅包含开始和结束帧的视频

人工神经网络架构和生成对抗网络的最新进展促进了图像/视频合成方法的发展。现有的研究大多集中在两个操作上：无条件视频生成和视频预测。它们都涉及使用有限数量的过去帧生成/预测新的似是而非的视频。

最近，谷歌的一个研究团队专注于在只有两帧（开始帧和结束帧）可用时创建多样化和合理的视频序列的问题。该过程称为中间，通常通过使用门控循环单元或长短期记忆训练/运行循环神经网络来执行。

然而，在这项研究中，研究人员表明这个问题（中间）可以通过 3D 卷积神经网络解决。这种方法的一个主要优点是简单。由于它不使用循环元素，更短的梯度路径可以实现更深的网络和更稳定的训练。

在卷积网络中，很容易强制执行与开始和结束帧（作为输入提供）的时间一致性。该模型有 3 个关键组件 –

参考：arXiv:1905.10240 |英伟达

该团队试图直接从开始和结束帧的编码表示创建视频，但结果并不理想。这就是为什么他们设计了潜在表示生成器，它随机融合关键帧表示，并稳步提高最终视频的时间分辨率。

该团队在各种公开可用的数据集上测试了他们的模型，包括 UCF101 动作识别、BAIR 和 KTH 动作数据库。

新模型创建的框架示例 |研究人员提供

最终结果：数据集中的每个样本总共包含 16 帧，其中 14 帧是由卷积神经网络生成的。模型对每一对关键帧执行一百多次，整个过程对每个模型变体重复 10 次。

阅读：新 AI 将黑白视频实时转换为彩色

在所有情况下，该模型都能够创建逼真的视频序列，因为关键帧之间的距离约为 1/2 秒。此外，研究人员表明，通过简单地改变驱动生成过程的输入噪声向量，可以创建各种序列。这种新方法可以为未来的视频创作研究提供一个有价值的替代视角。

工业技术