谷歌人工智能通过视频着色实现对象跟踪——一种自我监督的方法

教机器跟踪视频中的对象是计算机视觉中最困难的任务之一，主要是因为它需要巨大的标记训练数据集来进行跟踪。当然，记录和标记地球上发生的一切是不切实际的。

这就是为什么有必要建立一个在没有人类监督的情况下学习跟踪的系统，而不是利用大量原始的、未标记的剪辑。你问，为什么它如此重要？嗯，跟踪视频中的对象对于许多应用都很有用，例如对象交互、活动识别、视频风格化等等。

现在，谷歌的研究人员开发了一种卷积网络，可以学习从单个参考帧复制颜色。该模型被限制为使用视频第一个参考帧的颜色，而不是尝试直接从灰度帧估计颜色。

为了复制正确的颜色，网络需要学习如何在内部指向正确的区域。这个新模型可以跟踪不同的对象并跟踪遮挡，而无需在大型标记数据集上进行训练。

为了开发这个人工智能系统，研究人员利用了颜色的时间一致性，它为训练卷积网络跟踪视频中的特定部分提供了大量的训练数据。在某些特殊情况下，颜色在时间上不连贯，例如立即打开灯。然而，一般来说，颜色随着时间的推移保持稳定。

从彩色单帧参考预测颜色 |图片来源：谷歌

首先，对视频进行脱色，然后网络执行着色步骤，因为场景可能包含相同颜色的不同对象。通过这样做，机器可以学习如何跟踪特定区域或对象。

培训

研究人员使用 Kinetics 数据集（包含 50 万个描述日常活动的视频剪辑）来训练他们的模型。他们将所有视频帧（不包括第一个视频帧）转换为灰度，并训练网络来估计后续帧中的正确颜色。

为了从单个帧复制原始颜色，卷积网络学会在内部指向正确的颜色。这迫使网络遵循一种明确的机制，该机制可用于对象跟踪。

网络在无人监督的情况下追踪物体 |图片来源：Google

尽管该模型没有接受过可靠身份的训练，但它学会了仅使用单个（第一）帧来跟踪视频中的任何对象或视觉部分。它可以跟踪视频中的单个点或轮廓实体。

参考：arXiv:1806.09594 | Google 人工智能博客

为了跟踪着色视频中的对象，研究人员只做了一项更改：传播代表目标区域的标签，而不是在整个剪辑中传播颜色。

追踪人体骨骼运动|图片来源：谷歌

该网络还能够跟踪人体姿势：它需要一个标有关键点的初始帧并完成其余的工作。然而，预测后续帧中的关键点并不像听起来那么容易，因为当视频中的人物发生变形时，您需要对每个关键点进行细粒度的定位。

研究人员在 JHMDB 数据集（人类姿势和动作的完整注释数据集）上展示了网络的姿势跟踪功能，他们跟踪了人体关节骨骼。

该网络获得了与光流相似的性能，表明它可以学习一些运动特征。它能够很好地学习跟踪人体姿势和视频片段，从而略微优于最新的基于光流的技术。

阅读：谷歌人工智能可以从两张静态图像创建短视频剪辑

该模型尚不完美。在一些实验中，它未能对视频进行着色并跟踪片段。因此，研究人员计划进一步改进视频着色过程，这最终可能转化为增强的自我监督跟踪。

工业技术