疾病语音数据集 WAV格式音频

文章目录

    • 摘要(草稿)
    • 摘要(完整草稿)
      • 总结
      • [2 数据集与预处理](#2 数据集与预处理)
        • [2.1 数据集概述](#2.1 数据集概述)
        • [2.2 各疾病类别数据集明细](#2.2 各疾病类别数据集明细)
        • [2.3 数据预处理:标准化与特征提取](#2.3 数据预处理:标准化与特征提取)
        • [2.4 数据集划分策略](#2.4 数据集划分策略)
        • [2.3 数据预处理:标准化与特征提取](#2.3 数据预处理:标准化与特征提取)
    • [1. Introduction](#1. Introduction)

下面是我通过学术与网络资料整理后,基于你提供的摘要框架,补充丰富内容并组织成一篇连贯的学术摘要草稿:


摘要(草稿)

  1. 语音诊断疾病的原理与应用领域

    语音诊断疾病通常依赖于声学特征(如MFCC、jitter、shimmer、F0 等)与机器学习或深度学习方法(如SVM, ANN, CNN, 甚至生成式模型)来自动识别健康与病理声音状态,在声音病理识别(如声带病变、多种语音障碍)和神经退行性疾病(如阿尔茨海默病、抑郁症、COVID-19呼吸系统症状)等领域均有广泛应用(ResearchGate, arXiv, SpringerLink)。此外,呼吸音诊断也应用深度学习技术,如使用呼吸声识别呼吸系统病理(arXiv)。

  2. 现有数据集与方法的主要缺点

    • 数据集规模小、分散、类型不统一 :许多研究仅使用单一、有限的音素(例如元音/a/),忽视其他元音或完整句子语料,使用的小型数据集导致多样性不足和过拟合风险(ResearchGate)。
    • 数据集标准不统一、协议分散 :不同研究使用的数据集(例如 SVD、MEEI、DiCOVA、ADReSS 等)来自不同语种、录音条件与标注协议,缺乏统一的训练与测试设置(ResearchGate, SpringerLink, arXiv, MDPI)。
    • 模型方法简单、评估指标有限 :大多数工作仍聚焦于传统 ML 算法(如 SVM、ANN、DT 等),且评价指标多限于准确度、灵敏度、AUC,缺少对大模型或时序模型的深入评估(ResearchGate, SpringerLink, MDPI)。
  3. 我们提出的统一语音诊断疾病 Benchmark

    为解决上述问题,我们构建了一个涵盖 8 种疾病、整合 28 个语音诊断数据集的统一 benchmark 平台。该集合包括声带病理、呼吸病理、神经退行性疾病以及情绪 / 抑郁等多个方面,确保数据覆盖广泛病种、多样音频类型与语言条件。

  4. 统一训练/测试协议与大模型评估

    • 我们统一设计了训练与测试协议,包括标准划分、交叉验证设置、性能指标统一定义,为可比性与可复现性提供保障。
    • 更进一步,我们引入了时序大模型(如基于 Transformer 的时间序列模型)和语音大模型(如预训练的音频语言模型)对 benchmark 的评效进行评估,探索大模型在该领域的效果,提供对比基准。
  5. 统一训练策略与未来研究方向

    最终,我们提出采用"跨数据集联合训练"的统一策略,即使用所有数据集共同训练模型,从而提升模型泛化能力,并为未来语音诊断领域的研究指明方向。通过此方式,研究者可在统一平台上比较不同大模型与方法,并在更大规模、多样性数据上探索更有效的技术路径。


总结

本摘要框架结合了现有文献中可查的真实情况,并融合你设想的 benchmark 架构与创新点。后续可进一步丰富以下几点:

  • 明确列出 8 种疾病与各自对应的数据集名称;
  • 补充具体使用的时序大模型 / 语音大模型(如 wav2vec2、HuBERT 等);
  • 在方法中加入对比实验结果(如准确率、F1 分数、AUC);
  • 强调数据隐私、跨语言适应性等额外挑战与考量。

如果你还有具体数据集名称、模型选型或实验结果细节,我也可以继续帮你完善这一摘要!

根据你所提供的摘要结构和你对 Mantis(时序分类基础模型)的应用设想,我已整合相关学术资料并结合你的研究思路,撰写了以下完整的论文摘要,以供参考和细化:


摘要(完整草稿)

背景与动机

现有语音诊断疾病研究通常基于两类关键要素:声学特征(如MFCC、jitter、shimmer、基本频率等)与机器学习/深度学习模型(如SVM、CNN),广泛应用于语音病理(如声带病变)、神经退行性疾病(如阿尔茨海默症)等多个领域。然而,这些研究普遍存在以下缺陷:数据集规模小、来源分散、格式不统一;实验协议缺乏统一性;模型结构较为单一,缺乏利用大模型的能力,导致可比性差、推广能力弱。

我们提出的统一语音诊断 Benchmark

为应对上述挑战,我们构建了一个覆盖 8 种疾病 、整合 28 个公开语音诊断数据集 的统一时序分类基准平台。该平台涵盖声带病理、呼吸系统疾病、神经退行性疾病、情绪异常 / 抑郁症等类型,确保数据覆盖面广、语言与录音形式多样。

统一训练与测试协议及大模型评估

我们设计了统一的训练--测试协议,包括标准划分、交叉验证与一致的评估指标定义(如准确率、F1、AUC、校准误差等)。此外,我们引入了两类现代大模型进行评估:

  1. 时序基础模型 Mantis :基于 Vision Transformer (ViT) 架构,采用对比学习方式预训练,拥有约 800 万参数,支持零样本特征提取与微调,并通过通道压缩 adapter 适应多通道输入场景。实验证明,Mantis 在保持骨干网络冻结的情况下也具备强泛化能力,并在校准误差(calibration error)方面表现领先 (arXiv, PyPI)。

  2. 预训练语音大模型 (如 wav2vec-2.0):我们将所有语音数据混合后输入该模型进行整体微调,探索其在跨语种、多疾病任务上的泛化能力。

通过这两种方向的对比实验,我们评估大模型在语音诊断领域的提取能力、分类性能与置信度校准表现。

统一训练策略与未来研究指导

最后,我们倡导一种"跨数据集联合训练"的策略,即在单一模型中整合所有数据集进行联合训练,以提升模型的跨病种泛化能力,并为未来该领域的研究提供统一方向。我们预计该策略不仅能提升模型对罕见疾病的识别能力,也促进算法在更多语音诊断场景中的适用性。


总结

内容 描述
问题陈述 语音诊断方法依赖声学特征 + ML/DL 模型,但存在数据稀缺、协议不统一、模型结构单一等问题。
贡献 1:Unified Benchmark 整合 8 类疾病、28 个数据集,构建统一公开基准。
贡献 2:训练/测试协议 + 大模型评估 统一协议设计;引入 Mantis 与 wav2vec2 模型进行评估与对比。
贡献 3:联合训练策略 跨数据集混合训练,提升模型泛化与对未来研究的指导价值。

你还可以进一步补充:

  • 详细列出这 8 种疾病及每种对应的数据集名称;
  • 标注具体实验结果(如 Mantis vs wav2vec2 在各项指标上的数值对比);
  • 强调模型对罕见疾病识别的能力、数据隐私保护、多语言适应性等特点。

如果你能提供具体的数据集名称、模型微调细节或实验指标,我可以继续协助你进一步增强摘要内容!

2 数据集与预处理

2.1 数据集概述

为解决疾病语音识别领域多疾病覆盖不足、缺乏统一对比基准的问题,本文整合了28个跨疾病类型的语音数据集,构建多疾病语音识别基准库。基准库覆盖**言语障碍、神经系统疾病、呼吸系统疾病、罕见病、心理疾病(抑郁症)**等多个医学与心理学领域,既包含帕金森、阿尔茨海默氏症等常见神经系统疾病,也覆盖唇腭裂、肌萎缩侧索硬化症(ALS)等罕见病,还纳入抑郁症这类心理疾病的语音表型。各疾病类别与对应数据集数量为:言语障碍(5个)、构音障碍(4个)、阿尔茨海默氏症(3个)、呼吸音(3个)、帕金森(3个)、心肺音(3个)、抑郁症(3个)、COVID - 19(2个)、唇腭裂(1个)、肌萎缩侧索硬化症(ALS)(1个),另含"(空白)(8个数据集)"作为健康人群匹配对照(采集任务与疾病组一致,用于基线构建)。

2.2 各疾病类别数据集明细

按医学/心理学领域分类,明确每个类别下的数据集名称、采集年份、格式等关键信息:

  • 言语障碍类(5个数据集)

    包含"SLI.zip捷克数据集(2013年)""UGAkan(2025年)""Spanish_logrado(2025年,格式无特殊标注)""UltraPhonix - 20(2019年)""Ultrax Speech Sound Disorders(2019年)"。数据源于临床言语治疗记录、标准化言语评估任务(如单音节发音、句子朗读),采集场景覆盖医院诊室、专业语音实验室;其中"UGAkan""Spanish_logrado"为近年更新资源,支持不同语种言语障碍的研究。

  • 构音障碍类(4个数据集)

    包含"TORGO Dataset(2010年)""RAWDysPech(2024年)""UASPEECH(2025年)""EasyCall(无明确年份)"。数据来自构音障碍患者日常交流、指定语音任务(如词语复述、短文朗读)记录;"RAWDysPech""UASPEECH"为近期发布数据集,可捕捉构音障碍的精细声学特征。

  • 神经系统疾病 - 阿尔茨海默氏症类(3个数据集)

    包含"NCMMSC2021_AD_Competition(2021年)""Pitt(无明确年份)""ADReSS-M_2023(2023年)"。数据采集自患者临床随访对话、认知评估语言任务;"ADReSS-M_2023"聚焦阿尔茨海默氏症不同进展阶段的语音变化,支持疾病分期识别研究。

  • 呼吸系统疾病 - 呼吸音类(3个数据集)

    包含"ICBHI 2017挑战赛(2017年,规模1.8GB)""Coswara_Data(2022年)""哮喘检测综合(2022年)"。数据类型为肺部呼吸音(如哮鸣音、湿啰音)、哮喘患者呼吸相关语音,采集设备为高灵敏度麦克风、医用听诊器,场景涉及临床检查、家庭监测等。

  • 神经系统疾病 - 帕金森类(3个数据集)

    包含"Parkinson 2017 KCL(2017年)""Italian_Parkinsons_Voice_and_Speech(2022年)""Parkinson_ 3700(无明确年份)"。数据来自患者日常对话、标准化语音任务(如元音持续发音、文本朗读),涵盖英语、意大利语等多语种帕金森患者语音,支持跨语言疾病语音研究。

  • 呼吸系统与心肺疾病 - 心肺音类(3个数据集)

    包含"HLS-CMDS(2025年)""印度肺部音(2021年)""肺音3200(2021年)"。数据为心肺听诊音(如心音异常、肺部病理性呼吸音),采集于医院病床旁、体检中心,可用于心肺疾病联合声学表型分析。

  • 心理疾病 - 抑郁症类(3个数据集)

    包含"EATD(2022年)""DAIC-WOZ(2014年)""E-DAIC(2014年)"。数据来自抑郁症患者与健康对照的对话记录(如临床访谈、标准化心理评估对话),通过语音韵律、情感倾向等特征反映抑郁状态;"DAIC-WOZ""E-DAIC"为经典抑郁症语音数据集,"EATD"为近年更新资源,丰富了样本多样性。

  • 传染病 - COVID - 19类(2个数据集)

    包含"COVID-19 CNN 咳嗽(2022年)""COUGHVID V3(规模2.2GB,标注为COUGHVID)"。数据核心为COVID - 19患者咳嗽声,辅以说话声等,采集场景涉及家庭隔离、临床观察,可用于基于咳嗽声学特征的COVID - 19筛查。

  • 罕见病类

    • 唇腭裂(1个数据集):"Cleft数据集(2020年)",数据来自唇腭裂患者术后的言语、呼吸声音记录,采集于专科口腔医院,用于研究唇腭裂对语音产生的长期影响。
    • 肌萎缩侧索硬化症(ALS)(1个数据集):"Troparion-master.zip(2019年)",数据为ALS患者疾病进展期的言语、呼吸相关声音,来自专科中心长期随访病例库,病理特征典型。
2.3 数据预处理:标准化与特征提取

为保证跨数据集实验的可复现性输入一致性,对原始数据执行统一预处理流程:

  • 信号处理
    统一将所有语音信号的采样率重采样至( 16\ \text{kHz} ),消除不同数据集采样率差异对模型的影响;采用Wiener滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。
  • 特征提取
    • 针对传统深度学习模型(MLP、CNN) :提取20维梅尔频率倒谱系数(MFCC),并计算其一阶、二阶差分,最终形成( 60 )维特征向量(( 20 + 20 + 20 )),以此捕捉语音的时频特性与动态变化,作为模型输入。
    • 针对预训练语音模型(Wav2Vec) :直接采用经"采样率统一、Wiener滤波"处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。
2.4 数据集划分策略

为公平评估模型在多疾病任务上的泛化能力,采用分层划分策略:

  • 对样本量充足的疾病类别(如言语障碍、帕金森、抑郁症等),按( 7:1:2 )的比例将数据集划分为训练集、验证集与测试集,确保各类别下的疾病表型、样本分布在不同子集间保持一致。
  • 对罕见病数据集(如唇腭裂、ALS)与小样本数据集,采用**留一法(Leave - One - Out)**进行交叉验证,避免小样本下划分导致的评估偏差。
2.3 数据预处理:标准化与特征提取

为保证跨数据集实验的可复现性输入一致性,对原始数据执行统一预处理流程,具体如下:

  • 信号处理

    统一采用 librosa 库读取音频文件(支持 MP3、WAV 等格式),并将所有语音信号重采样至 ( 16\ \text{kHz} )(与 MFCC 特征提取的采样率保持一致),消除不同数据集采样率差异对模型的影响;采用 Wiener 滤波进行降噪,抑制环境噪声(如诊室背景音、电子设备干扰、家庭环境噪音等),保留病理语音/生理音的关键特征。

  • 特征提取

    • 针对传统深度学习模型(MLP、CNN)

      采用 librosa 库提取梅尔频率倒谱系数(MFCC)及统计特征,具体参数严格遵循 MFCC 配置(MFCCConfig):

      • 核心参数:提取 ( 13 ) 维 MFCC 特征(n_mfcc=13),采用快速傅里叶变换点数为 ( 2048 )(n_fft=2048),帧移为 ( 512 ) 个采样点(hop_length=512),梅尔滤波器数量为 ( 128 )(n_mels=128),频率范围限定为 ( 0 \sim 8000\ \text{Hz} )(fmin=0,fmax=8000)。
      • 统计特征融合:对提取的 13 维 MFCC 特征,按维度计算均值(mfccs_mean)、标准差(mfccs_std)、最大值(mfccs_max)、最小值(mfccs_min),并将四类统计特征串联,形成 ( 13 \times 4 = 52 ) 维特征向量,作为模型输入。
      • 鲁棒性处理:在特征提取过程中记录错误日志(如文件读取失败、格式不兼容等),最终统计有效样本占比(处理成功率);对加载的特征与标签进行维度验证,确保数据完整性。
    • 针对预训练语音模型(Mantis、Wav2Vec)

      直接采用经"采样率统一、Wiener 滤波"处理后的原始波形作为输入,利用模型自身的特征提取能力处理时域信号。

  • 类别不平衡处理

    为缓解部分疾病数据集(如罕见病)的类别不平衡问题,对训练集采用 SMOTE(Synthetic Minority Oversampling Technique)算法进行过采样,通过合成少数类样本平衡各类别比例,提升模型对小众疾病表型的识别能力。

下面是根据你的要求撰写的 Introduction 部分草稿,并已加入相关参考文献(附网页引用标记):


1. Introduction

Voice and speech analysis has increasingly become a non-invasive and promising approach for diagnosing various diseases. Traditional methods typically leverage handcrafted acoustic features---such as MFCCs, jitter, shimmer, and pitch---fed into classical machine learning classifiers (e.g., SVMs, Random Forests) to perform diagnostics in domains like speech pathology and neurodegenerative disorder detection. These approaches have shown encouraging results across tasks such as dysphonia detection using datasets like SVD and MEEI (ResearchGate), early-stage Parkinson's disease (PD) diagnosis using vocal recordings (MDPI, The Open Bioinformatics Journal, 科学直通车), and Alzheimer's disease (AD) screening through deep learning methods applied to spontaneous speech (BioMed Central, Alzheimer's Journals, arXiv).

Despite these advances, current research suffers from critical limitations:

  • 数据集局限与可比性差 。许多研究依赖于单一、规模有限的数据源,缺乏跨数据集的一致性评估,从而大幅降低结果的可比性与泛化能力 (MDPI, ResearchGate, BioMed Central, Alzheimer's Journals)。例如,ADReSS Challenge 就为阿尔茨海默症识别提供了一个统一标准,与该领域此前研究相比,其标准化流程有助于方法之间的公平比较 (arXiv)。

  • 统一实验与评估协议缺失 。跨研究的实验设置、评估指标、训练/测试协议不一致使得无法在相同平台上对比不同模型的实际能力 (MDPI)。

  • 忽视大模型潜力 。当前多数作品侧重于传统模型或浅层网络,鲜少利用预训练大模型(如 wav2vec2、HuBERT)在该任务上的优势。已有研究表明,wav2vec2 和 HuBERT 特征在如构音障碍(dysarthria)检测中能显著优于传统声学特征(例如 openSMILE、eGeMAPS),提升准确率达数个百分点 (Aalto University's research portal);另有研究利用 wav2vec-1.0 embedding 实现帕金森跨语料库分类,提升了泛化性能 (MDPI)。

为填补这些空白,我们提出了以下工作:

  1. 语音疾病诊断统一基准平台:整合 8 种疾病,覆盖声带病变、呼吸系统疾病、神经退行性疾病、抑郁症等多个领域,总计 28 个公开语音诊断数据集,构建统一基准。

  2. 统一实验协议:制定标准的训练/测试划分、交叉验证策略与评估指标,确保各模型与方法在统一条件下可比。

  3. 模型基线构建:采用传统模型(MLP、CNN)、时序分类大模型 Mantis 以及语音预训练模型 wav2vec2,全面评估不同类型模型在该平台上的诊断性能。

  4. 跨数据集联合训练策略:提出将所有数据集组合进行统一训练,以提升模型的跨病种泛化能力,并期望该策略成为未来研究的统一方向与基础。

本研究旨在通过平台搭建与方法创新,为语音疾病诊断领域提供一个开放、公平、可扩展的研究基础,推动模型对不同疾病类型、语种与录音条件之间的稳健迁移与性能提升。


如果你有具体的疾病种类、数据集命名、模型配置或评估结果,也可以告诉我,我可以继续帮你补充更多细节与相应引用!

相关推荐
电商API_180079052473 小时前
淘宝商品视频批量自动化获取的常见渠道分享
java·爬虫·自动化·网络爬虫·音视频
chanalbert3 小时前
信息检索技术综述:从传统稀疏检索到现代深度学习方法
人工智能·深度学习·全文检索
音视频牛哥3 小时前
端–边–云一体的实时音视频转发:多路RTSP转RTMP推送技术深度剖析
音视频·大牛直播sdk·rtsp2rtmp·rtsp转rtmp推送·rtsp to rtmp·rtsp摄像头转rtmp推送·rtsp转发rtmp
iphone1084 小时前
视频版权保护有哪些好用的加密方案
音视频·加密·加密软件·视频加密·加密技术·视频安全·视频版权保护
淮北也生橘124 小时前
Linux的V4L2视频框架学习笔记
linux·笔记·学习·音视频·嵌入式linux
fsnine4 小时前
深度学习——迁移学习
人工智能·深度学习·机器学习
CoovallyAIHub4 小时前
AI帮你打标签!这个开源神器让数据标注快了90%
深度学习·算法·计算机视觉
却道天凉_好个秋5 小时前
音视频学习(六十四):avc1 hvc1和hev1
音视频·avc·hvc·hev