实时人工智能以无与伦比的精度立即为黑白视频着色
- 新的深度学习算法允许剪辑师通过对场景中的一帧进行着色来快速对整个视频进行着色。
- 它非常准确、高效,并且比以前的方法快 50 倍。
视频由帧之间的大量冗余数据组成,需要花费大量时间来手动为每个黑白帧着色。这些类型的冗余已在视频编码和压缩中得到广泛研究,但在高级视频处理(例如对剪辑进行着色)中探索较少。
有许多算法(例如双边 CNN 模型、相似性引导过滤、基于光流的扭曲)可以处理连续帧之间的局部关系以传播数据。他们要么使用表观运动,要么使用预先设计的像素级特征来对帧和像素之间的相似性进行建模。
然而,这些算法存在一些局限性,例如它们无法表达帧之间的高层关系,无法准确反映图片的结构。为了克服这些限制,NVIDIA 的研究人员开发了一种基于深度学习方法的新算法,使剪辑师能够通过对场景中的单个帧进行着色来快速对整个剪辑进行着色。
它是如何工作的?
为了明确学习连续帧之间的高级相似性,研究人员开发了一种时间传播网络,其中包含一个传播组件,用于将一帧的特征(如颜色)转移到另一帧。为此,它使用由卷积神经网络 (CNN) 驱动的线性变换矩阵。
CNN 决定应从彩色帧中转移哪些颜色并将其填充到剩余的黑白帧中。您问,这种技术与其他技术有何不同?那么,可以通过交互式方法获得更好的着色,在该方法中,编辑器对图像的一部分进行注释,从而产生成品。
对于时域中的学习传播,研究人员强制执行了 2 条规则。首先,帧之间的传播必须是可逆的。其次,整个过程中必须保留目标元素。
他们表明,所提出的技术不需要任何基于图像的分割方法即可获得与现有的最先进方法相媲美的良好结果。
参考:arXiv:1804.08758 | 英伟达
为了训练该网络,研究人员使用了 NVIDIA Titan XP GPU。它对来自多个数据集的数百个剪辑进行了训练,以实现高动态范围、颜色和掩模传播。该网络配置在包含 7,260 个视频序列(约 600,000 帧)的 ACT 数据集上。
所提出技术的优点
- 高精度: 与以前的作品相比,新方法实现了更好的视频质量。
- 高效率: 它实时执行,比以前的方法快 50 倍。通过并行处理所有视频帧,进一步提高了效率。
阅读:Nvidia AI 可以将 30fps 视频转换为 240fps
当前的技术提供了一种在剪辑中随时间传播数据的简单方法。在未来几年中,研究人员将尝试弄清楚如何将跟踪、语义、分割等高级视觉线索纳入时间传播。
工业技术