NVIDIA 开发 AI，可根据现实世界创建交互式图形

研究人员展示了一种新型的视频到视频合成。
它允许开发者从真实世界的视频中渲染完全交互式的 3D 环境。
它可以创建 30 秒长的 2K 分辨率视频。

大约 20 年前，NVIDIA 推出了世界上第一款 GPU，在 3D 游戏性能方面实现了重大飞跃。现在，他们推出了一种人工智能工具，允许开发者从真实世界的视频中渲染完全合成的交互式 3D 环境。

建模和重建现实世界动态的能力对于开发智能代理至关重要。合成连续的视觉体验在计算机图形学和机器人学中有多种应用。它可以帮助开发人员创建逼真的场景，而无需指定照明、材料和场景几何。

在这项工作中，研究人员展示了一种新型的视频到视频合成。目标是学习可以有效地将输入视频转换为输出视频的映射函数。他们使用生成器和鉴别器以及时空对抗学习合成了高分辨率、时间一致的视频。

使用神经网络呈现高级描述

为了实时渲染合成的 3D 世界，他们从条件生成神经网络开始，并在现有视频上对其进行训练。网络逐渐学习渲染车辆、建筑物和树木等对象。

使用现有技术，开发人员需要单独为每个对象建模，这是既耗时又昂贵的过程。另一方面，新工具基于一个模型，可以自动从真实视频中学习，并为汽车、游戏、机器人、建筑和虚拟现实创建虚拟世界。

参考：arXiv:1808.06601 |英伟达 | GitHub

它可以创建基于真实位置的交互环境，或者可以显示人们像他们最喜欢的摇滚明星一样跳舞。该网络处理 3D 场景的高级描述，例如描述对象位置及其一般属性的边缘图，例如图像的某个部分是由建筑物还是汽车组成。然后，它使用现实世界的场景来填充细节。

神经网络接受了实际城市地区视频的训练。研究人员创建了一个演示，使人们能够在网络呈现的虚拟城市世界中导航。由于场景是综合创建的，因此在虚拟场景中可以轻松编辑、添加或修改对象。

研究人员提供

根据报告，该演示在 NVIDIA Tensor Core GPU 上运行，并提供全新的交互式图形体验。神经网络在 DGX-1 和 CUDA 深度神经网络库上训练，使用 NVIDIA Tesla V100 GPU。该团队从 Cityscapes 和 Apolloscapes 数据集中选择了数千个剪辑来训练网络。

测试

他们进行了多次测试并获得了定量和定性结果，这表明合成的场景比现有最先进方法生成的场景看起来更逼真。

这个新的 AI 可以制作 30 秒长的 2K 分辨率视频。此外，它还提供对输出的高级控制。例如，on 可以轻松地添加或替换场景中的建筑物。

该方法并不完美，并且在几种情况下会失败，例如由于地图数据不足而渲染转弯车辆。但是，这可以通过集成深度图等 3D 线索来解决。

阅读：Google AI 可以通过对视频着色来跟踪对象

尽管这项研究还处于早期阶段，但这项技术的应用可以使为各种领域开发虚拟环境变得更容易、更便宜。

新 AI 可以检测新闻来源是否准确或有政治偏见 Android Robotic Child Face 获得更多表情

工业技术