即使戴着口罩,耳机也能追踪面部表情
研究人员发明了一种耳机,它可以通过观察脸颊的轮廓来连续跟踪完整的面部表情,然后可以将表情转换为表情符号或无声的语音命令。借助耳挂式设备(称为 C-Face),用户无需将摄像头放在他们的面前,就可以向在线合作者表达情感——这是一种特别有用的交流工具,因为世界上大部分地区都在从事远程工作或学习。
与现有的用于跟踪面部表情的耳戴式可穿戴技术相比,该设备更简单、不那么突兀且功能更强大。在以往的可穿戴技术中,以识别面部表情为目标,大多数解决方案都需要在面部安装传感器;即使有这么多仪器,他们也只能识别有限的离散面部表情。
借助 C-Face,虚拟现实环境中的化身可以表达用户的实际感受,教师可以在在线课程中获得有关学生参与度的宝贵信息。它还可以用于仅使用面部提示来指导计算机系统,例如音乐播放器。因为它通过检测肌肉运动来工作,所以即使用户戴着口罩,C-Face 也可以捕捉面部表情。
该设备由两个微型 RGB 相机组成 - 数码相机,可捕捉红色、绿色和蓝色光带 - 位于每只耳朵下方,带有耳机或耳机。摄像机记录面部肌肉运动时引起的面部轮廓变化。在进行面部表情时,面部肌肉会拉伸和收缩,推拉皮肤并影响附近面部肌肉的张力。这种效果会导致脸颊的轮廓(轮廓)从耳朵的角度发生变化。
捕获图像后,将使用计算机视觉和深度学习模型对其进行重建。由于原始数据是二维的,卷积神经网络——一种擅长分类、检测和检索图像的人工智能模型——有助于将轮廓重建为表情。该模型将脸颊的图像转换为 42 个面部特征点或地标,代表嘴巴、眼睛和眉毛的形状和位置,因为这些特征受表情变化的影响最大。
由于 COVID-19 大流行造成的限制,研究人员只能在九名参与者身上测试该设备。他们将其性能与最先进的计算机视觉库进行了比较,该库从正面摄像头捕获的全脸图像中提取面部标志。重建地标的平均误差小于0.8 mm。
这些由 42 个特征点表示的重建面部表情也可以翻译成 8 个表情符号,包括“自然”和“愤怒”,以及 8 个用于控制音乐设备的无声语音命令,如“播放”、“下一首歌”和“提高音量。”
使用面部表情指挥设备的能力对于在共享工作空间中工作可能很有用,例如,人们可能不想大声说话来打扰他人。将表情转换为表情符号可以帮助虚拟现实协作中的人员更无缝地进行交流。
C-Face 的一个限制是耳机的电池容量有限。作为下一步,该团队计划开发一种功耗更低的传感技术。
传感器