音频边缘处理器如何在物联网设备中实现语音集成

专注于音频保真度和具有机器学习优化的内核是为物联网设备提供语音用户界面而无需高带宽互联网连接的关键。
语音处理功能正迅速出现在 iOttie Aivo Connect 等消费产品中。（来源：Knowles）

从家庭自动化和电子商务到医疗保健和汽车，现在越来越多的行业将物联网功能与语音集成相结合，以满足不断变化的需求并释放业务优势。然而，语音仍处于采用的早期阶段，刚刚开始扩展到移动设备和扬声器之外。语音将成为用户与其物联网设备之间交互的标准方法。这种向语音优先的转变不仅仅是因为它通过技术提高消费者的舒适度的想法。用于移动语音搜索的语音设备的全球移动性、自然语言处理 (NLP) 的进步以及人工智能和机器学习的进步将使新应用能够快速发展。

在存在噪音和其他干扰因素的情况下，始终如一的音质会限制令人愉快且引人入胜的语音交互。您的设备智能管理声音的能力决定了您的交流能力。预计永远在线的语音用户界面 (VUI) 将在更多消费产品中变得普遍，包括音频和视频设备、白色家电，以及广泛的电池供电设备，如遥控器、可穿戴设备、蓝牙扬声器、安全和户外活动摄像头。尽管存在需要克服的设计挑战，但组件供应商和 OEM 厂商也有机会提供满足这些应用需求的产品。

为了充分利用成熟的语音集成机会，更多的处理技术正在转移到边缘，远离云。结果是改进了用户界面，降低了延迟并降低了成本（美元和带宽）。为未来设计支持物联网的 CE 解决方案的制造商必须将语音集成视为产品功能的先决条件。能够在边缘部署专用语音处理的 OEM 将能够扩展这些应用程序并扩展其产品组合。

本文讨论了为 IoT 始终在线/始终侦听设备实施 VUI 的最常见挑战。文章回顾了相关的需求，以及有效满足这些需求所需的设计能力，包括与控制接口的集成、软件堆栈、算法开发和用户空间应用程序开发。

将音频边缘处理器集成到物联网设备中

专注于音频保真度和机器学习优化内核的专用音频边缘处理器是支持高质量音频通信设备的关键。这些处理器可以提供足够的计算能力来使用传统和 ML 算法处理音频，同时使用通用处理器的一小部分能量。而且由于处理是在设备上进行的，因此比将信息发送到云端再返回要快得多。

物联网设备集成了音频处理器以添加语音唤醒等丰富功能。虽然云可能提供一些巨大的好处，但边缘处理允许用户随时利用其设备的全部功能，而无需高带宽互联网连接。例如，边缘音频处理器通过对带有上下文数据的音频进行低延迟处理，同时保持上下文数据的本地和安全，从而在虚拟通信中实现卓越的用户体验。

整合语音的挑战

语音呼叫、控制和交互的应用机会不断增加。然而，随着设备的增多，更多的碎片被引入，使得整合语音变得更加困难。您如何将语音控制集成到每个应用程序中——无论是蓝牙扬声器、家用电器、耳机、可穿戴设备还是电梯——都会有所不同。添加语音唤醒触发器可能很简单，但设计企业级蓝牙扬声器和耳机要复杂得多。如果该扬声器包含真无线立体声 (TWS) 集成，则复杂性再次上升。

此外，各种应用程序需要与不同生态系统的语音集成。例如，您需要在 Linux 生态系统中工作以在大多数智能电视上实现语音，但要在家用电器上获得语音则需要在微控制器 (MCU) 生态系统中工作。对于所有这些集成，都有一种通用的推荐方法来实现，但总会有变化，这增加了复杂性。

高质量的大众市场开发解决方案对于克服这些挑战以及将新技术快速推向市场以支持我们快速发展的工作、生活和交流方式至关重要。为了应对这些挑战，合适的解决方案需要满足多种设计要求。

解决关键设计要求

功耗

为了让 VUI 设备接收命令，它必须始终在线/始终监听命令。无论这些设备是否插入电源，特别是如果它们是由电池供电的，对功耗的限制可能是一个主要的设计挑战。

在语音命令系统中，至少一个麦克风必须始终处于活动状态，并且负责识别唤醒词的处理器也必须处于活动状态。采用专有架构、硬件加速器和特殊指令集设计的音频边缘处理器可以优化运行音频和 ML 算法。这些优化有助于降低功耗。

延迟

语音激活设备对延迟没有容忍度。即使感知到的延迟超过 200 毫秒，人们也会开始通过语音通话相互交谈，或者向语音助手重复他们的命令。为了开发能够获得必要的消费者认可的语音集成设备，工程师和产品设计师必须在整个系统中提供优化的音频链，以符合行业规范和最佳用户体验。因此，边缘处理器中的低延迟处理是确保高质量语音通信的关键要求。

整合

因为在为不同的 VUI 实现选择硬件和软件时有很多选择，所以在集成阶段的各个点，有些要求可能会成为挑战。在此过程中需要考虑的一些关键设计注意事项包括以下讨论的事项。

硬件集成

根据设备使用情况、应用程序和生态系统，有多种硬件架构可用于实现 VUI 系统。每个 VUI 设备都包含麦克风，可以是单个麦克风或麦克风阵列，它们连接到音频处理器以捕获和处理音频。在 Knowles 最近发表的这篇嵌入式文章中，我的同事回顾了实现 VUI 系统的硬件架构注意事项以及每种方法的优缺点。

主机软件集成

如上所述，有多种操作系统和驱动程序可供选择。理想情况下，音频处理器将附带固件和一组驱动程序，这些驱动程序配置为与主机处理器连接。 Android或Linux等操作系统通常运行在主机处理器上。

在内核空间中运行的驱动程序软件组件通过控制接口与固件交互，来自音频边缘处理器的音频数据可以通过标准的高级 Linux 声音架构 (ALSA) 接口在用户空间中读取。

要将软件与主机系统的其余部分集成，将软件发布包中提供的音频处理器驱动程序连接到内核映像中可能成为一项复杂的工作。这包括将驱动程序源代码复制到内核源代码树中，更新一些内核配置文件，并根据相关硬件配置添加设备树条目。

对此的解决方案是使用具有精确或相似配置的预集成标准参考设计。

在理想情况下，音频边缘处理器将提供用于集成的流线型软件堆栈，并附带预先集成和验证的算法作为系统级解决方案，以进一步简化流程。

算法集成

当我们讨论算法集成的主题时。通常有多个算法级联以在任何给定时间在不同的用例之间切换。即使是语音唤醒，设计也需要多麦克风波束成形器、边缘语音唤醒引擎和基于云的验证。这意味着至少三种算法协同工作以优化性能。对于任何与 Alexa 或 Google Home 关键字集成的设备，必须有多种算法（通常来自不同供应商）必须在一台设备中一起优化。

一种解决方案是选择预先集成经过验证的算法、独立于主机系统进行开发和测试的音频边缘处理器。

外形集成

今天的设备可以采用多种形式。每个都有自己的安装多个麦克风的配置。麦克风和扬声器的距离和放置在性能中起着重要作用。性能调整和优化必须根据最终的外形和目标用例进行更改。还有影响性能的制造变化，例如麦克风密封、设备的声学处理、减振等。

隐私

许多音频处理器检测到唤醒词，然后立即将信息发送到云，在那里进行解释和操作。一个大问题是，一旦音频数据在云端，用户就无法控制数据，因此会面临很高的隐私风险。应对这一挑战的解决方案是选择一个边缘 AI 处理器，该处理器可以在本地“边缘”设备上执行命令解释和响应逻辑。

这使敏感的个人音频数据保持在本地，而不会被发送到云端，在那里可以违背我们的意愿使用。 VUI 实现现在不仅更加私密，而且可以更快地响应，使用户交互更加自然。这是边缘 AI 处理器如何推进现有用例以最大限度地提高我们每天使用和信任的设备的有用性的一个很好的例子。

硬件和软件界面

VUI 实现的设计要求可能很复杂，并且很难将具有语音集成功能的设备快速推向市场。 OEM 和系统集成商可以通过使用 Knowles AISonic 蓝牙标准解决方案套件等标准解决方案开发套件来大幅降低风险。此类套件为原型提供了预先配置的起点，使设计人员能够在此基础上开发自己的创新，而不必担心我们上面讨论的设计挑战。设计人员应寻找具有预集成和验证算法、预配置麦克风和与主机处理器和操作系统兼容的驱动程序的开发套件。

开放架构和开发环境的音频边缘处理器通过为音频应用程序开发人员提供创建新设备和应用程序的工具和支持来加速创新。未来的音频设备将是一项协作努力。

模糊测试如何加强物联网设备的安全性评估物联网和 5G 的影响

物联网技术