ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测

阿尔兹海默病（Alzheimer's Disease, AD）是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病，及早发现对于其干预和治疗至关重要。近期，清华大学语音与音频技术实验室（SATLab）提出了一种将停顿信息进行编码，并与语言模型中的文本嵌入融合的方法，可以有效提升基于自发语音的AD检测效果。该论文已发表于ICASSP 2025。

论文链接： https://arxiv.org/abs/2501.06727

背景介绍

阿尔兹海默病（Alzheimer's Disease, AD）是一种神经退行性疾病。患上阿尔兹海默病后，患者的大脑会发生病理变化，导致认知能力下降、表达能力退化等现象。临床研究表明，早期治疗可以有效延缓阿尔兹海默病的恶化。因此，AD检测方法的开发对于该疾病的及早诊治至关重要。

阿尔兹海默病对患者自发语音内容的影响促使人们探索自然语言处理技术，以实现可靠的AD检测。而AD检测中另一个关键指标是语音中的停顿，而通过语音停顿检测阿尔兹海默病在最近的文献中得到了广泛关注。

虽然目前已有一些将停顿信息与语言特征相结合的尝试，但还没有一种方法能将停顿信息深度融合到语言模型中。在本文中，我们提出了一种方法，在语言模型的编码阶段将停顿与文本内容相结合，以捕捉语音中的语义和副语言特征，从而提高 AD 检测的性能。

工作原理

在我们的方法中，我们利用预训练的 BERT 模型作为基础模型来捕捉语义信息。而停顿信息在被编码后与现有的词嵌入一起集成到 BERT 模型架构中。我们采用可学习的嵌入映射方法，将每一个单词的持续时间和停顿时间分别编码为嵌入。然后，将这两个嵌入在特征维度上拼接起来，并将其添加到词嵌入中，从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。

在停顿信息的编码过程中，我们引入了一种将时间特征编码到嵌入中的新方法。使用WhisperX语音识别模型转录自发语音后，我们提取转录文本中每个单词的持续时间和停顿时间，将它们结合为一个停顿标记，并在一定区间内进行均匀量化，得到一个停顿标记的码本，之后对其进行可学习的嵌入映射。

实验结果

在ADReSS数据集上，所提出的模型取得了81.2%的准确率，优于之前结合停顿与文本特征的模型BERT3p ；在ADReSSo数据集上，所提出的模型展现了更好的泛化性，83.1%的准确率优于BERT3p及其他使用停顿特征的模型。该结果证明了所提出方法的有效性。

结论

本文研究表明，将停顿信息融入语言模型能够有效提升阿尔兹海默病的检测性能。通过捕捉自发语音中的时间特征，模型在区分AD患者与健康个体方面表现出更强的判别能力，验证了停顿作为潜在生物标志物在AD早期检测中的应用价值。本研究为构建更精准、非侵入性、低成本的AD检测手段提供了新思路，对推动神经退行性疾病的早期诊断和治疗具有重要意义。

学生作者信息

蒲钰，清华大学电子系二年级硕士生，研究方向为阿尔兹海默病检测和端到端语音交互。

点击下面【阅读原文】跳转arXiv获取全文：