AI 模型通过自然对话检测抑郁症,准确率达 77%
- 麻省理工学院的研究人员开发了一种神经网络,可以自动从原始音频和文本中识别抑郁模式,无需预定义问题。
- 该模型是“上下文无关”的,这意味着它可以分析任何随意的对话并提取与抑郁症相关的语言和声音线索。
- 在一项验证研究中,它的总体准确率达到 77%,优于传统的基于问答的 AI 工具。
传统上,患者健康问卷 (PHQ-9) 是抑郁症筛查的黄金标准。它会询问一组关于情绪、睡眠、食欲和精力水平的固定九个问题,以计算 0 到 27 之间的分数,分数高于 20 表示严重抑郁。
在过去的几年里,机器学习方法已经成功地挖掘语音中的线索标记——语调、语速和特定的词汇选择——暗示抑郁状态。然而,这些模型大多数依赖于对 PHQ-9 或类似结构化访谈的回答,限制了它们在现实环境中的适用性。
麻省理工学院的新神经网络消除了这一限制。通过向其提供自由形式采访的录音,系统学会识别与抑郁症密切相关的微妙模式,例如频繁使用“沮丧”、“低落”或“悲伤”等词语,再加上平淡或单调的声音质量以及较慢的语速。
模型如何工作
该算法将语音视为一系列带有时间戳的音频帧和转录的单词。它采用深度序列建模架构,联合分析声学特征(音高、能量、语速)和语言内容。由于它不依赖于固定的调查问卷,因此可以应用于任何对话数据,从临床访谈到日常电话。
作者将此称为“上下文无关建模”,因为它可以捕获独立于所提出的具体问题的抑郁指标。
训练、验证和性能
该模型根据来自痛苦分析访谈语料库 (DAIC) 的 142 种互动进行了训练,其中包括与健康参与者和被诊断患有精神障碍的个人对话的音频、视频和文本。
使用 PHQ-9 评分 (0-27) 量化每位受试者的抑郁严重程度。在这项研究中,28 名参与者被归类为抑郁症(分数≥20)。该网络在精确度和召回率方面进行了评估:它实现了 71% 的精确度和 83% 的召回率,总体准确率为 77%,这比早期的人工智能方法(通常准确率徘徊在 60-65% 左右)有了显着改进。
未来的工作将把网络扩展到痴呆症等其他疾病,并探索驱动其预测的特定声学语言模式。
从长远来看,该技术可以集成到移动应用程序中,以被动监控用户的语音和文本是否有痛苦的迹象,为那些在获得心理健康护理方面面临障碍的人提供早期警报。

工业技术