亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 传感器

低功耗、永远在线的语音命令系统的设计注意事项

语音助手和集成正在引入市场的大多数产品、设备和技术中实施。话虽如此,这些有用的语音助手总是会监听激活/唤醒词(例如“okay Google”或“Alexa”),这已经不是什么秘密了,这些词通常会消耗大量电量。在技​​术飞速发展的世界中,必须考虑这对能源消耗的影响。

本文提供了使用语音活动检测 (VAD) 的低功耗、始终在线的语音命令系统的设计注意事项。它探讨了在选择创建易于使用、节能的语音用户界面 (VUI) 所需的组件时的权衡和考虑因素。

VAD 功能会在听到唤醒词之前检测环境中的人声,这意味着当无人在家时,您的语音助手不会浪费不必要的能量。据估计,全球有 42 亿个数字语音助手在使用,到 2024 年这个数字预计会翻一番。将这项技术应用到语音助手软件和其他依赖语音集成的产品中,将大大降低这些人的能源消耗。使用语音助手的人。

有多种硬件架构可用于实现 VUI 系统。通常,典型的语音用户界面实现由麦克风组成,可以是单个麦克风,也可以是连接到音频处理器的麦克风阵列,用于捕获和处理语音。

传入的音频流可以在边缘音频边缘处理器、内置音频边缘处理器的智能麦克风或标准应用处理器 (AP) 上进行处理。边缘音频处理器针对音频信号的低功耗和低延迟处理进行了优化。除了对输入音频进行专门处理外,边缘音频处理器还可用于对音频输出信号进行后处理。如果 VUI 系统是云连接的,音频边缘处理器还可以通过具有无线连接的主片上系统 (SoC) 与云 VUI 接口进行通信。本文介绍了 VUI 系统的两种不同实现及其各自的权衡。

超低功耗 VAD(语音活动检测)

图 1 所示的架构支持使用模拟信号路径的超低功耗 VUI,包括模拟麦克风和模拟比较器以提供唤醒触发器。当检测到声学活动时,模拟信号链会生成中断以唤醒音频处理器以进行语音捕获。该设备还可以包括“一键通”功能,用户可以通过按下按钮来唤醒音频处理器。

模拟唤醒麦克风必须始终监听环境,因此该麦克风以及比较器必须消耗很少的功率。楼氏 IA8201 是一个在最简单的唤醒触发模式下功耗低于 1mW 且具有 1MB 内存用于高级音频处理的高效音频处理器的示例。虽然图 1 所示的方法为遥控器和可穿戴设备等设备中的常开 VUI 提供了一种简单的低功耗 AAD(声学活动检测)方法,但它有局限性。这种实现会为任何声学信号唤醒音频处理器,并可能在嘈杂的情况下导致高整体系统功耗。此外,云连接的语音用户界面系统需要在捕获唤醒词之前一段时间的音频数据,以提高唤醒词检测的准确性。这通常称为前贴片广告,是支持 Alexa 的设备和其他智能扬声器设备的必备要求。

图 2 显示了一种支持智能扬声器等设备的预卷缓冲的架构。这些设备通常具有更大的电池和/或可能不需要一次充电即可使用数月的电池寿命。 VUI 系统始终开启,聆听环境并在循环缓冲区中记录前滚。前滚的长度通常为 500 毫秒的音频数据量级,用于校准环境噪声水平。

有几种不同的方法来设计永远在线的前端架构。音频处理器的选择取决于使用的麦克风数量,以及它们是模拟还是数字。

上面显示的架构使用楼氏 IA611 进行语音活动检测,使用 SPH0655LM4H-1 康奈尔 II 数字麦克风进行波束成形,并使用楼氏 IA8201 进行音频处理。楼氏 IA611 是一款智能麦克风,可为系统设计人员提供以下部分所讨论的好处。

麦克风选择

对于图 1 所示的架构,单个模拟麦克风和比较器用作触发输入,以在检测到声学活动时唤醒音频处理器。唤醒麦克风应为低功率模拟麦克风,其信噪比 (SNR) 最好高于 62 dB。 Knowles SiSonic MEMS 麦克风产品组合为唤醒麦克风提供了多种选择。例如,SPV1840LR5H-B Kaskade 模拟麦克风是一个不错的选择,ON 时仅消耗 45µA。始终开启的模拟路径,包括麦克风、放大器和比较器,消耗的电流小于 67µA。市场上有一些压电麦克风,其始终开启的功率非常低 (10µA),但它们通常具有较低的 SNR,这会影响系统性能。

对于图 2 所示的具有前滚缓冲功能的架构,具有嵌入式音频处理器和足够内存以在 2 秒的循环缓冲区中连续捕获语音数据的麦克风(例如 Knowles IA611)是始终在线语音活动的可行选择检测。它还带有移植语音触发器和命令的生态系统,例如亚马逊的 Alexa。当检测到关键字时,前滚缓冲区和发出的语音音频都会发送到云端自动语音识别 (ASR) 引擎。 IA611 始终开启的语音唤醒功率为 0.39 mA @ 电池 1.8V 和 90% 的效率,使其成为蓝牙扬声器等电池供电设备中语音用户界面的理想选择。该设备还接受来自数字麦克风的 PDM 输入,并可用于在系统唤醒后通过音频来支持主机 BT-SoC 处理器上的波束成形。

虽然这种始终开启的电源对于预卷应用是可以接受的,但对于图 1 所示的非预卷架构也值得考虑。如前所述,模拟唤醒麦克风将触发任何传入的声音并打开音频处理器。这在嘈杂的环境中可能会出现问题,例如当电视打开时,会出现许多虚假唤醒,从而导致严重的电力浪费。如果使用语音活动检测而不是低功耗模拟唤醒麦克风,系统将仅在检测到关键字时开启。为什么在嘈杂的环境中使用语音活动检测麦克风可能比简单的模拟唤醒麦克风更有效,这是合乎逻辑的。

图 3 显示的模拟数据比较了在 IA611 上使用 VAD 的典型电视遥控器与竞争的压电低功耗 AAD 麦克风和音频处理器在不同声学活动开启时间持续时间的电池寿命天数。当电视或其他家用电器打开时,或在其他情况下,当有杂音等时,可能会出现声音活动。 如图 3 所示,大约 3 小时有一个交叉点,因此使用模拟 AAD 的功率优势在竞争对手的麦克风上 vs IA611 上的语音活动检测消失。

在声学活动开启时间为五小时时,语音活动检测解决方案比基于 AAD 的竞争解决方案提供额外八天的电池寿命。根据尼尔森 2017 年发布的一项研究,将这一优势放在上下文中,美国成年人每天观看近 8 小时的电视。随着对联网设备(例如智能电视、游戏机和其他多媒体设备)的需求不断增加,在一个典型的美国家庭中,声学活动的小时数也可能会继续增加。使用基于智能 VAD 的唤醒将帮助系统设计人员开发更节能的 VUI 系统。

结论

从智能家居、酒店、数字工作场所、语音支付、智能能源管理、边缘语音和医疗保健,一直到改变工厂底层的工业物联网应用,语音增加了新技术的灵活性、效率、可持续性和采用接受度。

用于设计语音用户界面的各种硬件架构以及麦克风部分,根据终端设备的应用程序和设计人员的偏好,每个都服务于略有不同的需求;例如,支持 Alexa 的设备和智能扬声器需要具有预卷缓冲能力的架构。

电子工程师和设计师必须仔细评估终端设备将如何利用他们希望访问的语音和功能,并据此确定正确的架构和麦克风组件,这一点很重要。


Raj Senguttuvan 在消费类和工业应用的新技术开发、早期业务开发和项目管理方面拥有超过 15 年的经验,包括模拟设备公司和德州仪器公司。作为 Knowles 战略营销总监,他指导系统级开发、推动风险投资和合作伙伴关系,以及物联网和消费技术(包括音频处理器、算法、麦克风、传感器和接收器)的营销战略。 Raj 拥有康奈尔大学的 MBA 学位和佐治亚理工学院的电气工程博士学位。


相关内容 :

有关 Embedded 的更多信息,请订阅 Embedded 的每周电子邮件通讯。

传感器

  1. 金属 3D 打印的 6 个重要设计注意事项
  2. 模块化设计的优势嵌入式技术
  3. PCB 布局注意事项
  4. 用于制造 PCB 的设计
  5. 机器人手术视觉系统的照明设计注意事项
  6. 为什么可追溯性是支持 IIoT 的制造系统的重要基础
  7. 蜘蛛式设计为更好的光电探测器铺平道路
  8. PCB组装的重要考虑因素
  9. 刚硬 PCB 的阻抗设计注意事项
  10. 物联网设计中的天线设计注意事项
  11. PCB 热设计注意事项
  12. 第 1 部分:离心式压缩机的冷却器设计注意事项