仿真驱动的管道为灵巧机器人定制训练数据
运动设计内幕
对于机器人手臂和手等机械伙伴,PhysicsGen 可以将每台机器的几十个虚拟现实演示增加到近 3,000 个模拟。 (图片:由 Alex Shipps/MIT CSAIL 设计,使用研究人员的照片)当 ChatGPT 或 Gemini 对您紧迫的问题给出看似专家的答复时,您可能没有意识到它依赖于多少信息来给出答复。与其他流行的生成人工智能 (AI) 模型一样,这些聊天机器人依赖于称为基础模型的主干系统,该系统在数十亿甚至数万亿个数据点上进行训练。
同样,工程师们希望建立基础模型来训练一系列机器人掌握新技能,例如在家庭和工厂等地方拾取、移动和放下物体。问题在于很难跨机器人系统收集和传输教学数据。您可以使用虚拟现实 (VR) 等技术逐步远程操作硬件来教授您的系统,但这可能非常耗时。对来自互联网的视频进行训练的指导意义不大,因为这些剪辑没有为特定机器人提供分步的、专门的任务演练。
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 以及机器人与人工智能研究所采用了一种名为“PhysicsGen”的模拟驱动方法,可定制机器人训练数据,帮助机器人找到执行任务时最有效的动作。该系统可以将几十个 VR 演示扩展到每台机器近 3,000 个模拟。然后,这些高质量的指令会被映射到机械臂和机械手等机械伙伴的精确配置上。
PhysicsGen 通过三步过程创建可推广到特定机器人和条件的数据。首先,VR 耳机会追踪人类如何用手操纵物体(例如方块)。这些交互同时映射到 3D 物理模拟器中,将我们手上的关键点可视化为反映我们手势的小球体。例如,如果您翻转一个玩具,您会看到代表您手的不同部位的 3D 形状,旋转该物体的虚拟版本。
然后,管道将这些点重新映射到特定机器(如机械臂)设置的 3D 模型,将它们移动到系统扭转的精确“关节”。最后,PhysicsGen 使用轨迹优化(本质上是模拟完成任务的最有效运动),因此机器人知道执行诸如重新定位盒子之类的操作的最佳方法。
每个模拟都是一个详细的训练数据点,引导机器人了解处理物体的潜在方法。当实施到一项政策(机器人遵循的行动计划)中时,机器有多种方法来完成任务,并且如果一个动作不起作用,可以尝试不同的动作。
“我们正在创建机器人特定的数据,而不需要人类为每台机器重新记录专门的演示,”麻省理工学院博士杨路杰说。电气工程和计算机科学专业的学生以及 CSAIL 附属机构,他是一篇介绍该项目的新论文的主要作者。 “我们正在以自主且高效的方式扩展数据,使任务指令对更广泛的机器有用。”
为机器人生成如此多的指令轨迹最终可以帮助工程师建立一个庞大的数据集来引导机器手臂和灵巧的手等机器。例如,管道可以帮助两个机械臂协作拾取仓库物品并将其放入正确的盒子中进行交付。该系统还可以指导两个机器人在家里一起工作,完成诸如收拾杯子之类的任务。
PhysicsGen 的潜力还包括将为旧机器人或不同环境设计的数据转换为新机器的有用指令。 “尽管是为特定类型的机器人收集的,但我们可以恢复这些先前的数据集,使它们更普遍有用,”杨说。 PhysicsGen 将 24 个人类演示转变为数千个模拟演示,帮助数字和现实世界的机器人重新定向对象。
杨和她的同事首先在虚拟实验中测试了他们的管道,其中浮动的机械手需要将块旋转到目标位置。通过在PhysicsGen的海量数据集上进行训练,数字机器人以81%的准确率执行了任务,比仅从人类演示中学习的基线提高了60%。
研究人员还发现,PhysicsGen 可以改善虚拟机械臂协作操纵物体的方式。他们的系统创建了额外的训练数据,帮助两对机器人成功完成任务,比纯人类教授的基线提高了 30%。
在对现实世界中的一对机械臂进行的实验中,研究人员观察到了类似的改进,因为这些机器联合起来将一个大盒子翻转到指定位置。当机器人偏离预期轨迹或错误处理物体时,它们能够通过参考教学数据库中的替代轨迹来恢复任务中期。
资深作者、麻省理工学院电气工程和计算机科学、航空航天和机械工程丰田教授 Russ Tedrake 表示,这种模仿引导的数据生成技术结合了人类演示的优势和机器人运动规划算法的强大功能。
“即使是人类的一次演示也可以使运动规划问题变得更加容易,”丰田研究所大型行为模型高级副总裁兼 CSAIL 首席研究员 Tedrake 说。 “将来,也许基础模型将能够提供这些信息,而这种类型的数据生成技术将为该模型提供一种后训练配方。”
很快,PhysicsGen 可能会扩展到一个新领域:使机器可以执行的任务多样化。 “例如,我们希望使用PhysicsGen 来教机器人倒水,例如,当它只接受过放碗的训练时,”Yang 说。 “我们的管道不仅可以为熟悉的任务生成动态可行的运动;它还有可能创建多样化的物理交互库,我们相信这些库可以作为构建块来完成人类尚未展示的全新任务。”
创建大量广泛适用的训练数据可能最终有助于构建机器人的基础模型,尽管麻省理工学院的研究人员警告说,这是一个有点遥远的目标。 CSAIL 领导的团队正在研究PhysicsGen 如何利用大量非结构化资源(例如互联网视频)作为模拟的种子。目标:将日常视觉内容转化为丰富的、适合机器人使用的数据,这些数据可以教会机器执行没有人明确展示给它们的任务。
Yang 和她的同事还致力于让PhysicsGen 在未来对具有不同形状和配置的机器人更加有用。为了实现这一目标,他们计划利用数据集和真实机器人的演示,捕捉机器人关节而不是人类关节的移动方式。
研究人员还计划整合强化学习,即人工智能系统通过反复试验进行学习,使PhysicsGen将其数据集扩展到人类提供的示例之外。他们可以通过先进的感知技术来增强管道,以帮助机器人以视觉方式感知和解释其环境,从而使机器能够分析和适应物理世界的复杂性。
目前,PhysicsGen 展示了人工智能如何帮助我们教导不同的机器人操纵同一类别的物体,特别是刚性物体。该管道可能很快会帮助机器人找到处理柔软物品(如水果)和可变形物品(如粘土)的最佳方法,但这些相互作用尚不容易模拟。
来源
传感器