语音控制的算法和硬件功率提升

语音控制和语音接口已经开始无情地渗透到几乎所有消费边缘设备类别。语音识别算法和 AI 加速器硬件的进步意味着该技术甚至适用于功率和成本受限的应用，例如智能家居设备（甚至一些愚蠢的设备）。

用户端智能家居设备语音控制背后的驱动力是明确的。

Alireza Kenarsari-Anhari（来源：PicoVoice）

PicoVoice 首席执行官 Alireza Kenarsari-Anhari 告诉 EE Times：“易用性和便利性是目前的主要驱动力。”很容易想象，当您想喝咖啡时，从办公桌上对着家庭办公室的咖啡机大喊大叫，或者拿着一篮湿衣服向滚筒式烘干机口述订单。

我们假设像这样的智能设备不便携，可以永久访问家庭的 WiFi 连接——那么为什么不在云中进行这种语音处理呢？

在这种情况下，边缘 AI 的趋势主要是由隐私驱动的，Kenarsari-Anhari 说这是消费者的一个担忧，但对一些企业来说是必须的。可靠性是另一个驱动因素：“如果您的 WiFi 不工作，您的洗衣机停止工作是否有意义？”他说。

在某些情况下，延迟也很重要；某些应用程序确实需要实时保证语音工作负载处理，例如游戏。

成本是语音边缘处理的另一个重要驱动因素，因为在云中处理这些语音数据需要花钱。每次使用云 API 付费的商业模式不适用于家用电器和消费电子等用例，这些用例成本点较低，每天可能会使用多次。

PicoVoice 的 AI 语音到文本推理引擎设计为在低于 1 美元的微控制器上独立于云运行，旨在在其他情况下无法实现的应用程序中实现语音控制。这可能包括消费类可穿戴设备和耳戴设备，它们处于需要基于微控制器的语音解决方案能够实现的功率效率和成本效率的交叉点。 Kenarsari-Anhari 说，功率和成本优化的解决方案还可以在工业、安全和医疗应用中释放机会。

该公司最近推出了 Shepherd，这是一个用于在微控制器上构建语音应用程序的无代码平台，可与该公司的模型创建软件 PicoVoice Console 配合使用。 Shepherd 支持来自 ST 和 NXP 的流行 Arm Cortex-M 微控制器，同时支持其他设备。

“我认为语音是一种界面——如果你可以在没有编码的情况下构建你的 GUI 或网站，也许使用 WordPress，以类似的方式构建语音界面是下一个合乎逻辑的步骤，”Kenarsari-Anhari 说。 “Shepherd 使产品经理和用户体验设计师能够构建原型并快速迭代，但我们的目标是扩大其目标用户群。如果每个人都可以建立自己的助手会怎样？用他们想要的名字命名——而不是 Alexa！ — 并赋予它他们想要的个性。”

虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的，但这条路线并不适合所有人。

“当然可以——苹果、亚马逊、谷歌和微软做到了，”他说。 “这实际上是一个企业是否拥有资源，是否致力于围绕它建立一个组织，是否能够等待几年。”

未来趋势

Syntiant 首席执行官 Kurt Busch 在去年夏天接受 EE Times 采访时表示，语音正在成为下一代技术用户的首选界面。

Kurt Busch（来源：Syntiant）

Busch 描述了他最小的孩子，他可以阅读，但对于写作和拼写来说还太小，他可以使用智能手机上的语音界面与他的朋友发短信。

“他的哥哥姐姐发短信，但他这一代人比他们早几年拿到手机，”布施说。 “随着时间的流逝，对于他这一代和更年轻的人来说，他们的默认界面是与之交谈。”

Busch 的观点是，语音将成为“未来的触摸屏”，设备内处理首先在配备键盘或鼠标的设备中提供快速响应的界面，然后在白色家电中提供。

Syntiant 的芯片是专业的 AI 加速器，旨在以低到极低的功率预算处理消费电子设备中的语音 AI 工作负载。迄今为止，这家初创公司的芯片全球出货量已超过 1000 万颗，其中大部分已用于手机，以实现始终在线的关键字检测。最新的 Syntiant 芯片 NDP120 可识别“OK Google”等热门词，以低于 280 µW 的功率激活 Google 助手。

未来，Busch 还看到语音控制能够为每个人提供连接和技术访问。

“我们认为语音是技术的伟大民主化者，”布施说。 “世界上有 30 亿人每天靠 2 美元生活。我的假设是这些人无法访问互联网，也可能没有接受过教育系统。这里的自然界面是[语音]。这就是您将技术带入当今未与技术交互的第三世界的方式。我们已经看到发展中国家对语音优先应用程序产生了很多兴趣，以获取以前可能无法访问的那些社会阶层，不仅从费用的角度而且从舒适的角度来看。”

市场分散

Knowles 的物联网高级总监 Vikram Shirastava 告诉 EE Times，一个与语音一样快速增长的市场的危险在于它可能很快变得非常分散——而不仅仅是硬件产品线。

Vikram Shrivastava（来源：Knowles）

“市场会因为使用什么语音识别引擎而变得分散？”希拉斯塔瓦说。 “市场会变得分散，这取决于您是与电视 SoC 集成还是内部是简单的 MCU，例如微波炉。您会根据操作系统或声学环境获得碎片化——这只是家吗？外面有门铃吗？不可能有一刀切的解决方案。您必须找到每个垂直领域的共同点，并尝试相应地解决语音集成问题。”

Knowles 有一个基于 DSP 的语音控制解决方案，它打算针对不同的垂直行业推出不同的版本。它的方法是将市场的碎片分成具有共同特征的部分——例如，家庭控制、电视条形音箱和遥控器可能属于同一组——然后开发针对该组应用程序优化的解决方案。 Shirastava 将这种方法称为“低于交钥匙的一级”，它提供了交钥匙的可扩展性，但具有一些额外的灵活性。

“我们必须有几个不同的版本来解决碎片化的某个方面，以便我们能够涵盖我们想要追求的垂直领域，”他说。

楼氏最新发布的 AISonic 蓝牙标准解决方案是一个开发套件，用于蓝牙连接设备中的语音识别，例如智能扬声器、智能家居设备、可穿戴设备和车载语音助手。该套件基于 Knowles 的 IA8201 双核 DSP 芯片，该芯片专为神经网络处理而设计，其功耗远低于应用处理器。例如，该芯片可以同时处理用于关键字定位、源分类、波束形成、声学回声消除 (AEC) 和源方向估计的单独 AI 模型，功耗低于 50 mW。这是通过 Tensilica DSP 内核上近 400 条用于音频和 AI 处理的自定义指令的指令集扩展来实现的，这反过来又允许降低时钟频率以节省功耗。

Sugr 的 iOttie Aivo Connect 车载智能手机支架使用 Knowles 的 IA8201 实现车载语音功能。它内置了 Alexa 语音助手功能。（来源：Knowles）

语音最终会成为大多数消费类电子产品的默认用户界面吗？看起来确实是这样。先进、高效的 AI 语音控制算法、使开发人员能够轻松集成语音的开发环境以及不断增长的节能和经济高效的硬件解决方案生态系统相结合，使这一切成为可能。

>> 本文最初发表在我们的姊妹网站 EE次。

智能徽章参考设计具有蓝牙 SoC 最小化设备待机功耗

物联网技术