转向自定义语音代理的背后是什么?
自动化是未来的发展方向。我们生活在这个时代,希望一切都得到快速响应、实现和接收。尽管发生了这种根本性转变,但许多人并不接受技术。对于一些人来说,这与生活方式有关:大公司可能过于笨拙而无法改造他们的系统,而个人可能会被困在他们不想学习如何在触摸屏上导航的方式上。然而,对于大多数人来说,这归结为数据——谁拥有它以及如何保证它的安全。
解决方案?就像语音一样简单。语音支持技术可以在保持数据关闭的同时满足自动化需求,这是我们每天都在使用的东西,无论在哪里或平台。随着数字化转型继续影响越来越多的应用程序,语音代理就是答案。除了Alexa和Google Voice等流行的语音代理家喻户晓的名字外,更多公司正在探索构建嵌入到该技术中的定制语音平台。独特的语音平台将成为希望保留和控制自己数据的公司的前进方向。
颠覆的背后是自动化
随着物联网 (IoT) 以人工智能 (AI) 为基础,我们开始看到自动化需求的增长。当物联网与人工智能合作时,它可以改善用户对大量互联网设备的控制。我们开始看到语音支持在家庭内外扩展,通过谷歌语音、亚马逊 Alexa、微软 Cortana 等平台或独特创建的平台进行连接。在 Harman Embedded Audio,我们与地球上的每一个语音引擎都有过合作,并直接了解市场的广度。我们看到越来越多的公司希望在自己的自定义语音助手平台上构建支持语音的产品,以便他们能够控制数据。
对语音控制的需求不断增长
这是音频领域最热门的趋势之一。用户界面的下一件大事,现在触摸屏等功能几乎无处不在,是能够与设备对话。语音正在引领下一代人类协作。想想计算机上的自然语言处理:语音的处理方式适合机器愿意听到的内容,但是如果您播放相同的处理过的文件,它将是机械和不自然的。打电话也是如此:它不会给人一种与某人在一个房间里的印象。这是语音需要去的地方,上面提到的独特的语音平台也会随之而来。
自定义语音代理是什么样的,以及构建过程中涉及的内容
虽然每个语音解决方案都不同,但重要的是所有解决方案都必须足够灵活,以适应其用例的必要要求,同时仍然收集和保护用户数据。为了实现这一点,任何语音代理的构建和集成都涉及三个主要元素。
第一个是远场算法。使用将捕获远场语音的顶级算法。在我的公司,我们使用来自 Sonique 算法的四种关键软件算法:噪声抑制、声学噪声消除、声音分离和波束形成,以及语音活动检测。这些算法专门开发用于相互结合使用以支持启用语音的应用程序。
它们是如何工作的?考虑将智能扬声器与人类进行比较。 DSP/SOC 充当扬声器的“大脑”,麦克风是耳朵,扬声器是嘴巴。对我们来说,当有人呼唤我们的名字时,我们的大脑会消除我们周围的所有噪音,并将所有精力集中在那个关键词上。这就是我们在智能音箱中实现的效果——当检测到关键字时,麦克风会使用不同的噪声抑制技术,并将其全部力量集中在源头上。在这个过程中,它消除了周围的大部分噪音。在声学环境中,有许多噪声源,例如环境噪声、本地扬声器、HVAC 等,它们将扬声器的反馈回声到麦克风。这些噪声源中的每一个都需要自己的解决方案。 Sonique 算法抑制噪音并捕获尽可能清晰的语音命令。
此外,构建关键字发现 (KWS) 引擎至关重要。 KWS 检测诸如“Alexa”或“OK Google”之类的关键字以开始对话。我与几乎所有 KWS 引擎供应商合作过,每一个都由深度神经网络提供支持——高度可定制、始终倾听、轻量级和嵌入式。为了在远场语音应用中获得出色的客户体验,关键的组成部分是误接受和误拒绝率。在现实世界条件下,要保持较低的误拒绝率确实具有挑战性,因为电视、家用电器、淋浴等外部噪声很多,会导致音频播放的不完美消除。经验丰富的开发人员会调整 KWS 引擎以保持较低的错误接受率。
最后,自动语音识别 (ASR) 引擎将语音转换为文本。 ASR 由核心语音转文本 (STT) 工具和自然语言理解 (NLU) 组成,后者将原始文本转换为数据。该引擎还需要技能,或者换句话说,需要可以提供答案的知识库,以及逆向文本到语音的工具。例如,我们开发了一个名为 E-NOVA 的 ASR 引擎,它提供多平台、内部部署集成,支持多种语言(目前有七种语言并且还在不断增加),并包括可训练模型、第三方集成支持和谈话者识别。
ASR 是第一步,它使 Amazon Alexa、OK Google、Cortana 或客户等语音技术能够在提示“洛杉矶的天气如何?”时做出响应。它是检测口语、将它们识别为单词、将它们与给定语言中的声音进行匹配并最终识别我们所说的单词的关键部分。由于 ASR 引擎,对话感觉很自然。而且,借助现代技术,大多数 ASR 引擎都利用了云计算。随着 NLU 等其他技术的出现,人与计算机之间的对话变得越来越智能和复杂。
图 1:语音代理中的基本处理管道。 (来源:Harman Embedded Audio)
然而,构建自定义语音代理会带来许多独特的挑战。了解产品的环境是该过程的关键挑战之一,每个应用程序将根据特定用例而有所不同。例如,想象一下在家里做饭,你的手忙得不可开交,当需要烧水时,只需要向连接到您的管道空间的语音代理快速请求:“将水烧开 x 度。”这里的挑战是设备是否能够听到您所说的话,以及设备将消除多少噪音以获得干净的信号并正确听到您的声音。为确保这一点,语音算法需要针对恶劣环境进行调整,需要调整麦克风位置以便它们可以拾取声音,并且应使用低 THD 扬声器来帮助麦克风获得高 SNR。通过这种方式,您将获得最清晰的音频到 ASR 引擎,从而为您的问题提供正确的答案。
此外,想象一下在游轮上:您周围的噪音与您在客厅或厨房听到的完全不同。最大的挑战是训练算法来抑制这些噪音,并为系统提供干净的音频信号以获得准确的响应。如果实施得当,我们为 MSC Cruises 开发的虚拟个人巡航助手系统可以可靠地完成图 2 所示的步骤。
图 2:典型语音助手请求中涉及的步骤。 (来源:Harman Embedded Audio)
在这里,乘客房间的语音助手单元检测到“Hey Zoe”唤醒词。然后,当 KWS 检测到关键字时,整个麦克风基于噪声抑制算法,将它们的能量转移到源头并消除周围的噪声,例如交流噪声、电视、不相关的噪声、螺旋桨和发动机噪声、风噪声、AEC等。Sonique 算法经过调整以消除所有这些噪音,并为系统提供尽可能干净的信号。然后,当系统收到请求时,ASR 引擎将此语音转换为文本。 NLU 引擎然后将此文本转换为原始数据以获得答案。但我们还没有完成。为了获得您正在寻找的答案,知识技能为请求提供答案,ASR 引擎将该数据文本转换为语音并通过扬声器输出。
另一个挑战是围绕错误率拒绝 (FRR)。实现唤醒词 FRR(用于衡量智能扬声器性能的检查点之一)的过程既费时又费钱。该系统用于在检测到唤醒词时验证产品是否可以正常唤醒。为了实现 FRR,训练有素的关键词是必不可少的。根据我们的经验,将经过训练的模型与顶级算法相结合,可以让开发团队克服挑战并实现最佳 FRR。唤醒词响应在实验室的各种条件下进一步测试,以确保系统通过行业标准。
采用独特语音代理的优势
语音代理为用户体验提供了巨大的价值。音乐是最大、最简单的用例,但语音代理的价值远不止远程打开您的 Spotify 帐户。语音可以打开东西、与电器互动、烧水、打开水龙头——等等!语音功能强大,而且代理对他们的用户了解很多,这就是公司希望获取自己数据的原因——拥有、存储和保护数据。
语音解决方案具有广泛的应用,但关键是利用一种跨平台的技术——一种与智能扬声器、笔记本电脑和智能手机相关的技术,在 Apple、Windows 或 Android 上——并利用收集的数据来构建一个能够理解、不断学习和记住用户的需求。创建一个独特的语音代理可以实现这种使用灵活性——同时将数据保存在内部。
嵌入式