AI 现在可以在没有地图的情况下在陌生环境中导航

开发与物理世界智能交互的智能机器一直是 AI 社区的长期目标。主要的挑战是教授这些机器，让它们能够在不使用任何地图的情况下有效地在复杂、陌生的环境中导航。

通常，随着建筑物和结构的变化以及物体的移动，现实世界的地图会在几个月内过时。这就是为什么非常有必要为物理世界构建无需地图即可导航的人工智能。

牢记这些事情，Facebook AI 的研究人员开发了一种新的强化学习 (RL) 算法，该算法仅使用指南针数据、RGB-D 摄像头和 GPS 即可有效解决点目标导航任务。这种大规模的算法被命名为DD-PPO（去中心化分布式近端策略优化）。

如今，基于机器学习的系统能够在各种复杂的游戏中胜过人类专家。但由于这些系统依赖于大量的训练样本，如果没有大规模的分布式并行化，构建它们是不可能的。

当前的分布式强化学习架构——包括数千个工人 (CPU) 和一个参数服务器——不能很好地扩展。这就是为什么研究人员提出了一种同步的分布式强化学习技术。

DD-PPO 跨多台机器运行，没有参数服务器。每个工人 (CPU) 在 GPU 加速、资源密集型模拟环境中收集经验和优化模型之间交替。在显式通信状态下，所有工作人员将他们的更新同步到模型。换句话说，分发是同步的。

所有worker模拟一个agent执行点-目标导航，然后优化模型并同步更新|这就是在使用 DD-PPO 进行训练期间共享数据的方式

使用这种方法，DD-PPO 表现出接近线性的扩展：它能够在 128 个 GPU 上实现 107 倍的串行实现加速。

参考：arXiv:1911.00357 |脸书人工智能

在点目标导航中，代理被设置在陌生环境中的随机初始位置/方向，并负责在不使用任何地图的情况下导航到目标坐标。它只能使用指南针、GPS 和 RGB 或 RGB-D 相机。

研究人员利用 DD-PPO 的扩展特性来训练智能体 25 亿步，这相当于人类 80 年的经验。训练用 64 个 GPU 在不到三天的时间内完成，而不是几个月。

结果表明，90% 的峰值性能是在前 1 亿步中以较少的计算资源（8 个 GPU）获得的。数十亿步的经验，代理获得99.9%的成功率。相比之下，以前的系统达到了 92% 的成功率。

代理选择错误路径到达目标位置后回溯|研究人员提供

这些人工智能代理可以帮助现实世界中的人们。例如，它们可以向佩戴增强现实眼镜的用户显示相关信息，机器人可以从楼上的办公桌上取回物品，人工智能驱动的系统可以帮助有视力障碍的人。

本研究中构建的模型可以在通常的环境中工作，例如在实验室和办公楼内部，在这些环境中无法获得额外的数据点（地图和 GPS 数据）。

阅读：Facebook 开发 AI 能够以前所未有的准确度复制任何人的声音

尽管该模型优于 ImageNet 预训练的卷积神经网络并且可以作为通用资源，但要开发学习在复杂环境中导航的系统还有很多工作要做。研究人员目前正在探索实现仅 RGB 点目标导航的新方法。

工业技术