ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测

阿尔兹海默病(Alzheimer's Disease, AD)是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病,及早发现对于其干预和治疗至关重要。近期,清华大学语音与音频技术实验室(SATLab)提出了一种将停顿信息进行编码,并与语言模型中的文本嵌入融合的方法,可以有效提升基于自发语音的AD检测效果。该论文已发表于ICASSP 2025。

论文链接: https://arxiv.org/abs/2501.06727

背景介绍

阿尔兹海默病(Alzheimer's Disease, AD)是一种神经退行性疾病。患上阿尔兹海默病后,患者的大脑会发生病理变化,导致认知能力下降、表达能力退化等现象。临床研究表明,早期治疗可以有效延缓阿尔兹海默病的恶化。因此,AD检测方法的开发对于该疾病的及早诊治至关重要。

阿尔兹海默病对患者自发语音内容的影响促使人们探索自然语言处理技术,以实现可靠的AD检测。而AD检测中另一个关键指标是语音中的停顿,而通过语音停顿检测阿尔兹海默病在最近的文献中得到了广泛关注。

虽然目前已有一些将停顿信息与语言特征相结合的尝试,但还没有一种方法能将停顿信息深度融合到语言模型中。在本文中,我们提出了一种方法,在语言模型的编码阶段将停顿与文本内容相结合,以捕捉语音中的语义和副语言特征,从而提高 AD 检测的性能。

工作原理

在我们的方法中,我们利用预训练的 BERT 模型作为基础模型来捕捉语义信息。而停顿信息在被编码后与现有的词嵌入一起集成到 BERT 模型架构中。我们采用可学习的嵌入映射方法, 将每一个单词的持续时间和停顿时间分别编码为嵌入。然后,将这两个嵌入在特征维度上拼接起来,并将其添加到词嵌入中,从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。

在停顿信息的编码过程中,我们引入了一种将时间特征编码到嵌入中的新方法。使用WhisperX语音识别模型转录自发语音后,我们提取转录文本中每个单词的持续时间和停顿时间,将它们结合为一个停顿标记,并在一定区间内进行均匀量化,得到一个停顿标记的码本,之后对其进行可学习的嵌入映射。

实验结果

在ADReSS数据集上,所提出的模型取得了81.2%的准确率,优于之前结合停顿与文本特征的模型BERT3p ;在ADReSSo数据集上,所提出的模型展现了更好的泛化性,83.1%的准确率优于BERT3p及其他使用停顿特征的模型。该结果证明了所提出方法的有效性。

结 论

本文研究表明,将停顿信息融入语言模型能够有效提升阿尔兹海默病的检测性能。通过捕捉自发语音中的时间特征,模型在区分AD患者与健康个体方面表现出更强的判别能力,验证了停顿作为潜在生物标志物在AD早期检测中的应用价值。本研究为构建更精准、非侵入性、低成本的AD检测手段提供了新思路,对推动神经退行性疾病的早期诊断和治疗具有重要意义。

学生作者信息

蒲钰,清华大学电子系二年级硕士生,研究方向为阿尔兹海默病检测和端到端语音交互。

点击下面【阅读原文】跳转arXiv获取全文:

相关推荐
运维小欣17 小时前
Agentic AI 与 Agentic Ops 驱动,智能运维迈向新高度
运维·人工智能
Honmaple18 小时前
OpenClaw 迁移指南:如何把 AI 助手搬到新电脑
人工智能
wenzhangli718 小时前
Ooder A2UI 第一性原理出发 深度解析核心逻辑
人工智能·开源
网络安全研究所18 小时前
AI安全提示词注入攻击如何操控你的智能助手?
人工智能·安全
数据猿18 小时前
硬盘价格涨疯了,AI存储何去何从?
人工智能
zhangfeng113318 小时前
氨基酸序列表示法,蛋白质序列表达 计算机中机器学习 大语言模型中的表达,为什么没有糖蛋白或者其他基团磷酸化甲基化乙酰化泛素化
人工智能·机器学习·语言模型
陈天伟教授18 小时前
人工智能应用- 语言理解:06.大语言模型
人工智能·语言模型·自然语言处理
海心焱19 小时前
安全之盾:深度解析 MCP 如何缝合企业级 SSO 身份验证体系,构建可信 AI 数据通道
人工智能·安全
2501_9453184919 小时前
AI证书能否作为招聘/培训标准?2026最新
人工智能
2601_9491465319 小时前
Python语音通知接口接入教程:开发者快速集成AI语音API的脚本实现
人工智能·python·语音识别