2017 年是语音接口年吗？

在过去几年中，自动语音识别 (ASR) 的重大进步已经导致大量使用语音作为其主要界面的设备和应用程序。 IEEE 频谱 杂志宣布2017年为语音识别年； ZDNet 在 CES 2017 上报道称，语音是下一个计算机接口；许多其他人也有类似的看法。那么，我们在语音接口的进步方面处于什么位置？这篇博文将调查语音界面的现状及其支持技术。

您有多少设备可以与您对话？
语音激活无处不在。几乎每部智能手机都有语音界面，像 Apple iPhone 7 和三星 Galaxy S7 这样的旗舰产品都包含始终聆听功能。大多数智能手表都提供语音激活功能，以及其他可穿戴设备，尤其是耳戴设备，例如 Apple 的 AirPods 和三星的 Gear IconX。在大多数这些设备中，没有方便的方法来集成任何其他接口，使语音成为理想和必要的解决方案。新相机，如 GoPro Hero 5，可以使用语音命令进行操作，非常适合自拍。语音激活的汽车信息娱乐系统已经成为一种商品，让驾驶时换站变得更加安全。

Amazon Echo 点燃了对话助手的趋势，Google Home 试图与之抗衡，并在 2017 年 CES 上展示了各种类似的克隆产品。Echo 的语音服务名为 Alexa，具有多项内置技能。例如，您可以说“Alexa，给我讲个笑话” （非常讽刺），“Alexa，勇士队赢了吗？” （当然他们做了），或者“Alexa，谁出演了电影 2001：太空漫游？” （似乎没有其他人知道）。还有一堆有趣的复活节彩蛋，比如当你说“Alexa，启动自毁序列”时的反应。 （另见这段视频，展示了 Alexa 的一些复活节彩蛋。

除了内置功能外，第三方还可以使用 Alexa Skills Kit (ASK) 向 Alexa 添加新功能。此 ASK 使开发人员能够教授 Alexa 新技能，以便她（或它？）可以控制更多产品和服务并与之交互。例如，正如您在此视频中看到的那样，有人入侵了他的 iRobot Roomba 并添加了一项技能来控制吸尘机器人。

其他 Alexa 技能包括有用的东西，比如从各种餐馆点餐或叫 Uber，以及随机娱乐，比如问魔术 8 球问题、宋飞正传琐事和学习关于水果的新知识。亚马逊与惠而浦和通用电气等公司之间的合作还将通过增加控制洗衣机、冰箱、灯等家用电器的功能，增强 Alexa 在智能家居领域的能力。

目前，亚马逊似乎在这个市场上处于领先地位，但其他公司正在做出巨大努力（和投资）以迎头赶上。马克·扎克伯格聘请摩根·弗里曼为他的人工智能 (AI) 语音助手配音。根据描述他如何构建它的说明，扎克伯格花了一年时间将该应用程序开发为一个简单的人工智能来帮助他的家“就像钢铁侠中的贾维斯” （他也将其命名为 Jarvis）。据称 Jarvis 可以通过声音识别谁在说话，还可以识别面部，因此它可以在向扎克伯格报告的同时让授权人员进门。

另一个有趣的竞争者是名为 Gatebox 的日本亚马逊 Echo 类设备，它具有一个名为 Azuma Hikari 的全息角色。

日本对亚马逊 Echo 的回应（来源：Gatebox）

除了简单的扬声器之外，该设备还利用屏幕和投影仪使虚拟助手在视觉和听觉上栩栩如生。除了麦克风之外，它还配备了摄像头以及运动和温度传感器，使其能够以更全面的方式与用户互动。

远场拾音是如何工作的？
在房间的另一边播放音乐时，设备如何收听和理解您的语音命令？实现这一壮举涉及许多组件，但其中一些是最重要的。首先是自动语音识别 (ASR) 引擎，它使机器能够将我们发出的声音转换为可执行指令。为了让 ASR 引擎正常工作，它需要接收干净的语音样本。这需要降噪和回声消除，以滤除干扰。以下是实现远场拾音的一些最重要的技术：

深度学习 在这方面有着巨大的作用。理解自然语言的能力是在几年前建立的，但最近的改进使其接近人类水平的能力。使用诸如深度神经网络 (DNN) 等基于学习的技术，语言处理和视觉对象识别在许多测试案例中都达到或超过了人类的表现。 DNN 是在训练阶段使用大量数据集生成的。离线训练完成后，使用 DNN 实时执行其功能。

自适应波束成形 是强大的语音激活用户界面的关键。它支持降噪、扬声器跟踪（以防用户在说话时移动）以及多个用户同时说话时的扬声器分离等功能。

使用六边形麦克风阵列的波束成形（来源：CEVA）

这种方法使用相对于彼此处于固定位置的多个麦克风。例如，Amazon Echo 在六边形布局中使用了七个麦克风，每个顶点一个麦克风，一个在中心。各种麦克风接收信号之间的时间延迟使设备能够识别声音来自何处并抵消来自其他方向的声音。

回声消除 是必要的，因为许多执行自动语音识别的产品本身也会产生声音；例如，播放音乐或传递信息。即使在执行这些操作时，设备也必须能够听到，以便用户可以中断（插入）和停止音乐或请求不同的操作。要继续聆听，机器必须能够消除它自己产生的声音。这称为回声消除 (AEC)。

回声消除（来源：CEVA）

要执行 AEC，设备必须通过分析输出数据或使用额外的专用麦克风收听生成的声音来了解它正在发出的声音。类似的技术也可用于消除从墙壁和设备周围其他物体反射回来的回声。

用于建模 DNN、波束成形和回声消除算法的多麦克风开发平台（来源：CEVA）

另一种类型的回声是由用户命令自己在从物体或墙壁反弹回来时产生的。消除这种不可预测的回声需要另一种称为去混响的算法。然后声音被过滤，机器可以听取用户的命令。

今天的语音界面远非完美
一方面，考虑到语音接口已经变得如此普遍，2017 年对于语音接口来说似乎是值得关注的一年。另一方面，尽管过去几年取得了令人瞩目的进步，但仍有很长的路要走。

当前在批量生产的设备中实现语音接口仍然存在许多问题，但这将是未来专栏的主题。在我的下一篇文章中，我计划研究影响当今语音界面的一些缺陷和缺失的功能。一定要收听。

埃兰·贝莱什 是 CEVA 音频和语音产品线的产品营销经理，从语音触发和移动语音到无线音频和高清家庭音频，制定精美的解决方案。虽然没有被沉浸式声音的迷人世界所占据，但 Eran 喜欢自由潜入海底世界令人着迷的寂静。

如何防止基于 FPGA 的项目误入歧途优化 PCB 设计中的 RF 馈线

嵌入式

传感器

云计算

物联网技术