NVIDIA 开发 AI,可根据现实世界创建交互式图形
- 研究人员展示了一种新型的视频到视频合成。
- 它允许开发者从真实世界的视频中渲染完全交互式的 3D 环境。
- 它可以创建 30 秒长的 2K 分辨率视频。
大约 20 年前,NVIDIA 推出了世界上第一款 GPU,在 3D 游戏性能方面实现了重大飞跃。现在,他们推出了一种人工智能工具,允许开发者从真实世界的视频中渲染完全合成的交互式 3D 环境。
建模和重建现实世界动态的能力对于开发智能代理至关重要。合成连续的视觉体验在计算机图形学和机器人学中有多种应用。它可以帮助开发人员创建逼真的场景,而无需指定照明、材料和场景几何。
在这项工作中,研究人员展示了一种新型的视频到视频合成。目标是学习可以有效地将输入视频转换为输出视频的映射函数。他们使用生成器和鉴别器以及时空对抗学习合成了高分辨率、时间一致的视频。
使用神经网络呈现高级描述
为了实时渲染合成的 3D 世界,他们从条件生成神经网络开始,并在现有视频上对其进行训练。网络逐渐学习渲染车辆、建筑物和树木等对象。
使用现有技术,开发人员需要单独为每个对象建模,这是既耗时又昂贵的过程。另一方面,新工具基于一个模型,可以自动从真实视频中学习,并为汽车、游戏、机器人、建筑和虚拟现实创建虚拟世界。
参考:arXiv:1808.06601 |英伟达 | GitHub
它可以创建基于真实位置的交互环境,或者可以显示人们像他们最喜欢的摇滚明星一样跳舞。该网络处理 3D 场景的高级描述,例如描述对象位置及其一般属性的边缘图,例如图像的某个部分是由建筑物还是汽车组成。然后,它使用现实世界的场景来填充细节。
神经网络接受了实际城市地区视频的训练。研究人员创建了一个演示,使人们能够在网络呈现的虚拟城市世界中导航。由于场景是综合创建的,因此在虚拟场景中可以轻松编辑、添加或修改对象。
研究人员提供
根据报告,该演示在 NVIDIA Tensor Core GPU 上运行,并提供全新的交互式图形体验。神经网络在 DGX-1 和 CUDA 深度神经网络库上训练,使用 NVIDIA Tesla V100 GPU。该团队从 Cityscapes 和 Apolloscapes 数据集中选择了数千个剪辑来训练网络。
测试
他们进行了多次测试并获得了定量和定性结果,这表明合成的场景比现有最先进方法生成的场景看起来更逼真。
这个新的 AI 可以制作 30 秒长的 2K 分辨率视频。此外,它还提供对输出的高级控制。例如,on 可以轻松地添加或替换场景中的建筑物。
该方法并不完美,并且在几种情况下会失败,例如由于地图数据不足而渲染转弯车辆。但是,这可以通过集成深度图等 3D 线索来解决。
阅读:Google AI 可以通过对视频着色来跟踪对象
尽管这项研究还处于早期阶段,但这项技术的应用可以使为各种领域开发虚拟环境变得更容易、更便宜。
工业技术