语音界面的民主化

历史书很可能将语音控制视为人机界面中最重要的进步。不再打字，不再指指点点，我们只说我们想要的。该领域的最初进展一瘸一拐，直到智能音箱问世，那时我们才开始意识到什么是可能的。现在，随着电话、耳机、耳戴式设备和智能家居的识别、功能和应用的改进，竞赛正在进行中。当今最广为人知的解决方案依赖于由少数供应商控制的平台和服务，但这种情况正在发生变化。语音激活可以嵌入在任何地方，可以进行定制，提高抗噪能力，降低功耗，扩大范围，但与语音识别中的大平台一样有效。

（来源：CEVA/Shutterstock）

消费音频市场在此功能中扮演着重要角色，有着一段有趣的历史。 FutureSource 显示，从 2008 年到 2012 年，随着音频体验主要集中在智能手机上，美元数量下降。 2012年至2014年，市场基本持平。然后从 2015 年到 2018 年，它再次以 15% 的复合年增长率增长，主要由语音激活驱动。展望未来，Yole Développement 预计到 2023 年复合年增长率至少为 30%，主要由语音识别驱动 .这一增长的大部分将继续来自智能手机，其次是耳机和耳戴式设备、个人助理和智能家居功能（电视、电器等）。同一份报告得出的结论是，我们现在正进入智能音频的第二阶段，随着消费者对这种控制方法越来越熟悉，语音控制将变得更加普遍。

无论部署在何处，目标都是增强差异化。在智能手机或任何其他电池供电的设备中，一个明显的优势是支持永远在线；在发出命令之前无需按下按钮。这需要超低功耗触发字检测，正如我们所知，这意味着硬件与软件紧密匹配，以最大限度地减少待机功耗。自然地，您希望以多种语言为您的品牌个性化触发词或短语，以便在您所在地区甚至国际市场上获得强大的渗透力。您可能仍会将后续命令传递给主要语音识别提供程序之一以解压缩请求。或者也许不是。如果您的设备只需要支持有限的词汇，并且您的语音识别引擎可以扩展到该目标，那么您可能不需要第三方的帮助。

另一个关键需求是在嘈杂的环境中进行识别和可能的身份验证。语音识别提出了与对象识别不同的挑战。例如，在客厅或汽车中，可能有多个声源：人们谈话、电视和独立音乐/无线电源、室内外噪音以及所有这些来自房间或汽车内部表面的回声。隔离命令源、消除回声和降低背景噪声需要一些复杂的技术，依赖于多个麦克风、波束成形和回声消除以及噪声抑制。

这些就是需求，自然而然，可用的解决方案（例如 CEVA 的解决方案）已准备好满足这些需求。最近推出的 CEVA WhisPro™ 短语识别产品等解决方案使用在 CEVA DSP 平台上运行的基于神经网络的软件。 WhisPro 已经支持“Alexa”和“OK Google”作为语音触发器，并且可以在培训中进行定制以支持任何客户请求的触发器。它支持多种语言，可以处理多种语音触发。训练在多种噪声背景下进行，因此识别具有内置的抗噪能力，识别率>95%，误接受率低于每小时1次，无需云端验证。

通过添加专门的拾音解决方案 CEVA ClearVox™，开发人员可以实现多麦克风支持和波束成形，以改进远场拾音，同时消除回声并进一步降低噪音。将 WhisPro 与 ClearVox 搭配使用，可在更远的距离（最远 7 米）提供具有竞争力的触发识别，尤其是在嘈杂的环境中。

尤瓦尔·纳楚姆 担任 CEVA 音频和语音产品线的高级产品营销经理。 Youval 拥有超过 20 年的多学科经验，涵盖领先技术公司的营销、系统架构、ASIC 和软件领域。他热衷于预测长期趋势并领导技术项目成功完成。非常擅长将市场需求、产品定义、行业标准和设计创新结合成突破性产品。 Youval 拥有学士学位。和硕士以色列理工学院电气工程专业。

适用于资源受限微控制器的高效网络服务器技术维持物联网增长

物联网技术