AI在医学领域：谷歌的HeAR生物声学模型

声学非语义属性 的语音可以使机器学习模型执行诸如情绪识别、说话者识别和痴呆检测等副语言任务 。脑卒中、帕金森病、阿尔茨海默病、脑瘫和肌萎缩侧索硬化症（ALS）等脑血管和神经退行性疾病 也可以使用非语义语音模式，如发音、共鸣和发声等来检测和监测。与健康相关的非语义声学信号不仅限于对话语音数据。来自呼吸系统气流的健康相关声学线索，包括咳嗽声和呼吸模式等声音，可以用于健康监测。例如，临床医生使用类似"百日咳"的咳嗽声来诊断百日咳，并使用临终呼吸来检测急性心血管事件。前期针对各类疾病已经介绍了不少方法，然而，这些方法在健康声学领域仍未被充分探索。

本文介绍****谷歌研究团队开发的一种生物声学基础模型HeAR（Health Acoustic Representations），旨在通过分析人体的声音信号来检测疾病。在6个数据集上的13个健康声学事件检测任务、14个咳嗽推断任务和6个肺活量推断任务的多样化集合上对HeAR进行了基准测试，在许多任务上的表现超过了现有技术。

前期相关文章：

1 方法

HeAR 包含三个主要组成部分：数据整理步骤（包括健康声学事件检测器）、通用目的训练步骤以开发音频编码器（嵌入模型），以及采用训练好的嵌入模型进行各种下游任务的特定任务评估步骤。系统设计用于对两秒长的音频片段进行编码，并生成用于下游任务的音频嵌入。图1展示了系统的这些高级组成部分。健康声学事件检测器是一个多标签分类卷积神经网络（CNN），它能够识别两秒音频片段中存在的六种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓、笑声和说话。

1.1 数据整理步骤

健康声学事件检测器：一个多标签分类卷积神经网络 (CNN)，用于识别 2 秒音频片段中是否存在六种非语音健康声学事件：咳嗽、婴儿咳嗽、呼吸、清嗓子、笑和说话。
数据集构建：利用健康声学事件检测器从 YouTube 视频中提取 2 秒长的音频片段，构建了一个名为 YT-NS 的数据集，包含约 3.13 亿个音频片段，总时长约为 174,000 小时。

1.2 通用训练步骤

掩码自动编码器 (MAE)：使用 MAE 框架学习音频表示，训练一个自动编码器来重建掩码的 16x16 频谱图片段。75% 的输入片段被掩码并编码，然后通过添加可学习的掩码标记和 8 层 Transformer 解码器重建缺失的片段。
训练细节：使用 AdamW 优化器训练 950,000 步 (∼4 个周期)，全局批量大小为 4096，学习率采用余弦衰减调度，起始值为 4.8e-4。

1.3 任务特定评估步骤

线性探测器：使用训练好的音频编码器对所有数据集中的音频进行编码，并训练单独的线性或逻辑回归模型来预测数据集上的标签。
评估任务：包括 13 个健康声学事件检测任务（呼吸、咳嗽、哭闹、清嗓子、笑声、说话声及子任务）、14 个咳嗽推理任务和 6 个肺功能测试推理任务（从呼气音频中推理出肺功能指标，强制呼气量（FEV1）、强制肺活量（FVC）、FEV1/FVC 比率、峰流速（PEF）、呼气持续时间（FET）、性别）。
评估指标：对于二分类任务，报告 AUROC 或平均精度 (AP)；对于回归任务，报告平均绝对误差。

1.4 基线模型

1.4.1 TRILL

模型类型：基于 ResNet50 的编码器。
训练数据： AudioSet 数据集中带有语音标签的子集。
训练目标：优化三元组损失。
特点：针对非语义语音进行训练，但未针对健康声学进行优化。

1.4.2 FRILL

模型类型：基于 MobileNet 的编码器，是 TRILL 的蒸馏版本。
训练数据：与 TRILL 相同。
训练目标：与 TRILL 相同。
特点：专为移动设备设计，体积更小，速度更快，但性能略低于 TRILL。

1.4.3 BigSSL-CAP12

模型类型：基于 Conformer 的编码器。
训练数据： YouTube 90,000 小时的语音数据和 LibriLight 数据集。
训练目标： wav2vec 2.0 目标，类似于掩码语言模型。
特点：针对语音进行训练，性能优于 TRILL 和 FRILL，但未针对健康声学进行优化。

1.4.4 CLAP

模型类型：基于 CNN 的音频编码器。
训练数据：包括 FSD50K 在内的混合数据集。
训练目标：多模态对比学习。
特点：针对健康声学事件检测任务进行训练，性能在 FSD50K 数据集上表现最好。

2 结果

++++HeAR 模型在多个健康声学任务中取得了优异的性能，并具有更高的数据效率和泛化能力，具有成为健康声学领域重要工具的潜力。++++

2.1 HeAR 在 33 个任务中取得了最佳性能

HeAR 在 17 个任务中排名第一，包括 3 个健康声学事件检测任务、10 个咳嗽推理任务和 5 个肺功能测试推理任务。
HeAR 的平均倒数排名 (MRR) 为 0.708，高于其他所有模型。

2.2 HeAR 在健康声学事件检测任务中表现良好

HeAR 在 FSD50K 和 FluSense 数据集上的表现仅次于 CLAP，但优于其他未使用 FSD50K 进行训练的模型。
在 FSD50K 数据集上，HeAR 的性能随着序列长度的增加而显著下降，这可能是由于使用了固定的正弦位置编码。
通过裁剪音频片段，HeAR 的性能得到显著提升。

2.3 HeAR 在咳嗽推理任务中表现出色

HeAR 在 10 个咳嗽推理任务中优于所有基线模型，包括人口统计、生活方式和 COVID 任务。
在结核病和 CXR 任务中，HeAR 的性能与最佳模型相当。
HeAR 在不同录音设备上的性能保持稳定，而 TRILL 和 FRILL 的性能变化较大。

2.4 HeAR 在肺功能测试推理任务中表现良好

HeAR 在 SpiroSmart 数据集上的 4 个肺功能测试任务和性别分类任务中优于所有基线模型。

2.5 HeAR 具有更高的数据效率

HeAR 在使用更少训练数据的情况下，能够达到与其他模型相当甚至更好的性能。