训狗方法教机器人学习新技巧
计算机科学家通过一种通常用于教狗坐下和站立的训练技术,向机器人展示了如何自学几种新技巧,包括堆砌积木。使用该方法,机器人(名为 Spot)能够在几天内学习通常需要一个月的时间。通过使用积极强化(任何使用零食来改变狗行为的人都熟悉的方法),该团队显着提高了机器人的技能,并以足够快的速度做到了这一点,从而使训练机器人以适应现实世界的工作变得更加可行。
与天生具有高度直觉大脑的人类和动物不同,计算机是白板,必须从头开始学习一切。但真正的学习通常是通过反复试验来完成的,机器人专家仍在研究机器人如何从错误中有效地学习。该团队通过设计一种奖励系统来实现这一目标,该系统适用于机器人,就像对待狗的工作方式一样。狗可能会因为做得好而得到饼干,而机器人则获得数字积分。
要堆叠积木,Spot 机器人需要学习如何专注于建设性行动。当机器人探索积木时,它很快了解到正确的堆叠行为可以获得高分,但不正确的行为一无所获。 Spot 通过将最后一个块放在四块堆栈的顶部获得最多。
训练策略不仅有效,而且只需要几天时间就可以教给机器人过去需要几周的时间。该团队能够通过首先训练一个很像电子游戏的模拟机器人,然后使用 Spot 运行测试来减少练习时间。机器人快速学习正确的行为以获得最佳奖励。事实上,过去需要一个月的练习才能让机器人达到 100% 的准确率,现在两天就完成了。
正强化不仅有助于机器人自学堆叠积木,而且通过点系统,机器人很快学会了其他几项任务——甚至是如何玩模拟导航游戏。在各种情况下从错误中学习的能力对于设计能够适应新环境的机器人至关重要。
该团队认为,这些发现可以帮助训练家用机器人洗衣服和洗碗——这些任务可以帮助老年人独立生活。它还可以帮助设计改进的自动驾驶汽车或进行产品组装。
如需更多信息,请联系 Jill Rosen,该电子邮件地址已收到反垃圾邮件插件保护。您需要启用 JavaScript 才能查看它。 443-547-8805。
自动化控制系统