增强型技术将加速对语音助手的接受
150 多年前电话的发明引发了通信革命。今天,语音通信革命正处于新的飞跃之中,因为新型智能设备使人工智能 (AI) 从声音中提取意义成为可能,并为人们提供以更直观的方式与世界互动的新方式大大地。本文探讨了我们今天所处的位置,并预览了将使无处不在的语音助手成为我们生活中自然组成部分的技术。
“先生。华生,过来……”
亚历山大·格雷厄姆·贝尔 (Alexander Graham Bell) 在 1876 年所说的那句名言标志着声音第一次通过电传输。这项改变世界的创新仍然是我们工作、生活和娱乐方式发生巨大变化的核心,并且是我们与周围世界互动方式新突破不可或缺的一部分。
在第一世纪,有线电话网络将世界各地的人们连接起来。过去 50 年的电子革命使语音和视频通话变得无线和便携。在这十年中,我们已经从人与人之间的免提电话通话转变为与机器的通话。虽然仍处于初级阶段,但这种新型的人机交互正在推动创新的下一次飞跃。
计算机、智能手机和智能扬声器现在具有内置语音助手,这些助手使用基于云的深度学习系统让我们提问和编程操作。同样的功能很快就会集成到我们每天使用的其他设备中。据 Statistica 估计,到 2020 年,将有多达 18 亿人可以在他们携带的设备上以及在家中甚至商业环境中的其他类型平台上使用语音助手。
然而,语音助手系统的成功仍然受到当今技术限制的挑战。人工智能、专用处理器和更灵敏的麦克风的进步将提高语音助手的性能并加速市场采用。
让对话更人性化
语音助手系统面临的一项挑战是人类对话非常丰富且具有互动性。有时,朋友甚至可能在你说完一句话之前就对你的陈述做出回应。在技术术语中,人们相互交谈的响应时间以数十毫秒为单位。当您与朋友交谈时,偶尔缓慢而深思熟虑的反应是很自然的,但想象一下,如果正常的对话间隔包括长达几秒钟的延迟或经常需要重申问题或命令,那么您的日常互动会有多尴尬。
语音助手“对话”的缓慢与底层技术的几个方面有关。支持语音识别和响应的算法需要大量处理能力,因此今天的智能手机和智能扬声器系统会记录语音,然后将语音转发到云中的计算资源。为了尽量减少传输延迟的可能性,系统通常会传输低质量的音频文件,这会导致高错误率。而互联网本身是一种变速介质,所以传输速度是可以变化的。这两个因素的结合,总会影响到依赖云端做语音识别重任的语音助手的质量。
即使有这些缺点,消费者显然对这项技术感到兴奋。智能扬声器系统是继智能手机之后提供语音助手的第一款全新产品,其销量增长速度自第一款智能手机问世以来从未有过。根据 voicebot.ai 的数据,2018 年美国的设备销量增长了 40%,6640 万台的新销量使智能音箱的数量增加到 1.33 亿台,略高于美国成年人的 26%。
语音助手在模拟对话方面将继续变得更好也是不可避免的。会话延迟将缩小,改进算法将使交互看起来更像人类交互。这些改进的很大一部分将来自使处理更接近用户。
将对话带到边缘
使基于云的语音助手成为现实的技术正在以一种将使这些设备更加个性化的速度发展。当前的语音助手将信息传递到云端或从云端传递信息。明天,使这成为可能的人工智能将驻留在边缘设备中,在隐私、功耗和系统响应能力方面提供好处。简而言之,边缘计算有望通过将人工智能从云端转移到我们的家、我们的工作场所以及嵌入我们周围世界的其他设备,使语音助手更加有效。为了迈向这个未来,英飞凌最近展示了世界上功耗最低的边缘关键字识别解决方案。
更智能的语音助手大有可为的领域之一是医疗和个人健康监测。例如,高灵敏度麦克风可以在睡眠时监测呼吸声,并预测睡眠呼吸暂停等睡眠障碍的发作。许多人可能对将此类个人健康信息传输到云端进行处理感到不舒服。边缘处理将通过本地化音频捕获、计算和分析数据的存储来监控和分析这些信息。然后,用户将能够管理数据的共享方式和时间。确保更高级别隐私的语音助手将使人们更舒适地监测心脏和呼吸系统健康、睡眠状态和整体健康状况。
我们今天看到的人工智能的进步是由深度学习研究和用于构建专门的深度学习系统的新型硬件驱动的。英飞凌的合作伙伴 Syntiant 是该领域的先驱,正在构建一类新的芯片,将深度学习引入边缘设备。在短短几年内,语音助手技术辅助的人机交互将成为数十亿人的日常。为更智能的语音助手开发的技术将具有电源使用特性,允许为许多其他应用提供小型、电池供电的智能音频识别。要预测该技术的其他价值所在,请考虑您听到的声音如何影响您与世界互动的方式。在日常用户的视野之外,语音助手技术将成为物联网 (IoT) 中运行的智能机器中传感器套件的一部分,并成为工业 4.0 的一部分。
自动驾驶汽车还将结合其他传感器使用音频输入来检测和响应周围环境。自行车、火车、其他交通和孩子的喊叫声等声音都是 AI 网络的输入,这将使汽车能够“看到”拐角处的物体。在工厂中,操作机器的声音可用于智能控制网络,在潜在问题发生之前进行诊断。智能城市系统将“听到”异常事件,例如玻璃破碎或车辆事故,并向有关当局发出警报。未来几代机器人将采用音频系统作为支持智能操作和交互的传感器网络的一部分。事实上,潜在的应用程序列表是无穷无尽的。
——Pradyumna Mishra 是英飞凌科技的常驻企业家
嵌入式