SonicSense：使机器人能够像人类一样聆听，实现更智能的交互

杜克大学的新研究详细介绍了一种名为 SonicSense 的系统，该系统允许机器人以以前仅限于人类的方式与周围环境进行交互。

“今天的机器人主要依靠视觉来解释世界，”主要作者、一年级博士生刘家勋解释道。杜克大学机械工程与材料科学教授陈博源实验室的学生。 “我们希望创建一种解决方案，可以处理日常发现的复杂多样的物体，使机器人具有更丰富的‘感觉’和理解世界的能力。”

SonicSense 配备有四个手指的机械手，每个手指都配有嵌入指尖的接触式麦克风。这些传感器检测并记录机器人轻敲、抓握或摇动物体时产生的振动。而且由于麦克风与物体接触，因此机器人可以消除环境噪音。

基于交互和检测到的信号，SonicSense 提取频率特征，并利用其先前的知识，结合人工智能的最新进展，找出物体的材质及其 3D 形状。如果这是一个系统以前从未见过的物体，系统可能需要 20 次不同的交互才能得出结论。但如果它是数据库中已有的对象，它只需四个即可正确识别它。

这是独家技术简介 与陈的访谈，为了篇幅和清晰度进行了编辑。

技术简介 ：您在开发 SonicSense 时遇到的最大技术挑战是什么？

陈：我认为首先，确实还没有对利用声学振动进行机器人感知进行广泛的研究。之前的大部分工作都是用一根手指完成的，或者是非常初步的。但是，将其放在真正的机器人手上并能够与各种可能的物体进行交互并不是一件容易的事。

技术简介 :这个项目是怎么来的？您工作的催化剂是什么？

陈 :这是一个非常有趣的故事。我的第一个作品叫做“boombox”，那是在新冠疫情期间。我想我想做机器人和视觉方面的工作。因此，几年前我就已经对将声学振动引入传感感兴趣，因为我们经常使用声学振动。

在神经科学中，人类皮肤具有振动神经元。因此，我读到了这些内容，并思考我们如何将其应用到机器人上。但是，在新冠疫情期间，我无法使用机器人。我完成了博士学位。在哥伦比亚大学，所以我住在纽约市的一个小宿舍里，但我真的很想做这项研究。有一天，我突然有了一个想法，‘如果没有机器人，我能做什么来证明这是有帮助的？

我的房间里有一个玩具箱。通过随机地将物体扔在那里，我意识到，‘嘿，我必须去取回这个物体，但我不知道它在哪里。我扔了什么东西？”这是一个完美的研究问题。

我从三个不同形状的木箱开始，然后把它们扔进垃圾箱。我训练了一个人工智能系统，它可以预测我扔进去的物体的形状，以及我扔进去后物体最终的去向，因为我看不到它。这就是这个项目。

这个想法基本上是你有四个接触式麦克风。您将它们贴在垃圾箱的壁周围。您仅记录来自四个麦克风通道的声学振动。我使用用于拾取吉他声音的麦克风。我将它们贴在垃圾箱上，并训练了一个从声音到预测 3D 操作的系统。这就是该项目的开始。

当然，我想为机器人做这件事。那几乎就是 SonicSense 的诞生地。

技术简介 :能简单解释一下它是如何工作的吗？

陈：它是一个集成的硬件和软件系统。硬件部分有一个有四个手指的机器人抓手，每个指尖都有一个嵌入式接触式麦克风。这种接触式麦克风无法感知我们所说的内容，但它可以感知身体接触的振动。

软件方面基本上使机器人能够通过简单的敲击或用容器抓住物体并摇动它来自主导出环境。软件会将四个接触式麦克风的信号和电机信号一起采集。

我们训练人工智能网络来预测诸如“容器中有多少个骰子？”之类的事情。这个骰子有多少条边？这个水瓶里有多少液体？您要向另一个容器中倒入多少？”

技术简介 :下一步计划是什么？

陈：我们正在研究一些新想法，首先，我们需要哪些其他传感方式来实现人类水平的操纵灵活性。但是，更广泛的机器人内容，而不仅仅是操纵。但也适用于运动、导航等等。我们还需要其他传感方式吗？因此，探索新的模式，使机器人或赋予机器人拥有人类或动物所不具备的能力，是一个方向。

我们正在研究的另一个方向是我们已经在机器人中拥有的其他模式。例如，愿景——以及我们如何将所有模式融合在一起，以便对世界有一个连贯的理解，而不仅仅是一种视角？因此，将多种传感方式聚集在一起并获得统一的理解。

我们正在研究的第三个方向是将其引入真正的人类操纵能力向量——当前的设计在很大程度上只是一个原型。我们希望通过将手的形态和传感能力扩展到更大的范围来实现这一点。这意味着将大量传感器放在更像人类的手上，并真正展示灵巧的操纵能力。目前，我们只是在进行对象感知，但我们希望能够以更高级的功能来操纵对象。

文字记录

00:00:00 我们介绍了 Sonic sense，这是一个集成的硬件和软件框架，可实现丰富的机器人对象感知的声学振动传感。最近的工作利用声学振动传感进行对象材料和类别分类位置预测，估计颗粒材料的数量和流量，并共同执行对象空间推理

00:00:23 视觉重建然而，之前的工作集中于少数具有均质材料成分的原始物体，数据收集和单指测试的设置受到限制，因此尚不清楚声学振动传感是否有助于我们在嘈杂和不受控制的条件下感知物体

00:00:44 呈现声波感知硬件和算法进步的整体设计，通过增强声学振动感应实现物体感知我们的机器人手有四个手指 p 电接触麦克风嵌入在每个指尖内，周围的配重安装在外壳表面上，以增加手指运动的动量我们直观的机械设计

00:01:07 实现了一系列用于物体感知的交互式运动基元，包括敲击、抓握和摇动动作嵌入式接触式麦克风能够收集由物体之间的接触或物体手部交互产生的高频声学振动我们的机器人可以从容器内推断出容器内各种物体的几何形状和库存状态

00:01:31 他们在交互过程中独特的声学振动特征我们根据传统声学信号处理方法得出 12 个可解释的特征，以帮助区分这些不同的声学振动特征我们通过摇动我们的机器人可以的容器，在这个 12 维特征向量上使用 tne 执行无监督非线性降维

00:01:54 成功区分不同数量的骰子或容器内不同形状的骰子，当将水倒入机器人持有的瓶子内时，我们可以根据瓶子内现有的不同水量检测到声学特征的细微差异，我们的机器人还可以在摇晃更多瓶子时检测到瓶子内不同的水量

00:02:15 具有挑战性的物体感知任务我们开发了一个包含 83 个不同现实世界物体的数据集，我们的物体涵盖了九种材料类别和各种几何形状，从简单的基元到复杂的形状，这与之前的工作不同，之前的工作使用人类手动握住机器人的手与物体交互或设计固定的交互姿势和力进行重放，我们得出了一个简单但有效的

00:02:40 基于启发式的交互策略，自动收集物体的声振动响应我们的策略适用于涵盖可变尺寸和几何形状的所有现实世界物体我们训练了一个材料分类模型，该模型采用从撞击声中收集的声振动信号的梅尔频谱图，并学习预测

00:03:02 材料标签网络采用三个卷积神经网络层和两个 MLP 层的形式，我们方法的初始结果导致 F1 得分为 0.523，但是我们观察到物体材料在局部区域周围相对均匀和平滑，基于此假设，我们可以迭代完善我们的预测，最终平均 F1

00:03:25 得分达到 0.763 我们的形状侦察构建模型采用稀疏和嘈杂的接触点来生成对象的密集且完整的 3D 形状，我们堆叠两个指向层对输入进行编码，然后将全局特征向量输入具有完全连接层的解码器网络以生成最终的点云，我们的结果获得平均值 z。 Z

00:03:50 Z 876 M 距离分数冠军对具有原始形状的物体的预测通常具有近乎完美的性能，此外，当机器人与其声振动响应与物体进行交互时，我们的方法仅通过杆和噪声接触点估计来重建具有复杂形状的物体，我们的目标是

00:04:13 让我们的机器人通过一组 15 个新的点击交互重新识别对象，我们将 15 个梅尔频谱图的集合及其关联的接触点输入到网络，以在我们的数据集中的 82 个对象中预测该对象的标签我们的机器人可以以超过 92% 的准确度重新识别同一对象我们的机器人对环境有很强的抵抗力

00:04:37 噪音，仅关注通过物理接触的振动信号，这确保了在具有挑战性的环境条件下提供高质量和可靠的传感数据我们的整个机器人手的成本为 215 美元，采用商用组件和 3D 打印我们的实验结果证明了我们的设计在各种物体感知方面的多功能性和有效性

00:05:01 任务包括容器内固体和液体物体库存状态估计材料分类3D形状重建和物体重新识别总体而言，我们的方法对声学振动的触觉感知做出了独特的贡献，并为未来的机器人设计构建更强大的完整机器人开辟了新的机会

00:05:23 多才多艺、整体的世界感知模型

紧凑型桌面机器人彻底改变了物理治疗的实施 NASA 开发的电动推进器使商业卫星能够维持轨道并延长任务寿命

传感器