文章目录
- 一、逐篇分析可借鉴点
- [二、重新优化模型选型:从"多跑模型"改成"按评测 claim 组织模型"](#二、重新优化模型选型:从“多跑模型”改成“按评测 claim 组织模型”)
-
- [2.1 推荐 model family taxonomy](#2.1 推荐 model family taxonomy)
- [2.2 P0 / P1 / P2 模型清单](#2.2 P0 / P1 / P2 模型清单)
- [2.3 如何避免模型太多导致论文失焦](#2.3 如何避免模型太多导致论文失焦)
- [三、重新优化实验设计:NeurIPS E&D 风格实验矩阵](#三、重新优化实验设计:NeurIPS E&D 风格实验矩阵)
- [四、SpeechHealth-Eval task taxonomy](#四、SpeechHealth-Eval task taxonomy)
-
- [4.1 推荐 taxonomy](#4.1 推荐 taxonomy)
- [4.2 Core speech track vs extended clinical audio track](#4.2 Core speech track vs extended clinical audio track)
- [五、Benchmark artifact 设计](#五、Benchmark artifact 设计)
-
- [5.1 Repo 结构](#5.1 Repo 结构)
- [5.2 必须项 vs 加分项](#5.2 必须项 vs 加分项)
- [六、论文图表设计:15 个图表/表格](#六、论文图表设计:15 个图表/表格)
- [七、建议新增的 5 个杀伤力创新点](#七、建议新增的 5 个杀伤力创新点)
-
- [1. Protocol-Stability Leaderboard](#1. Protocol-Stability Leaderboard)
- [2. Cross-Dataset Retention Ratio](#2. Cross-Dataset Retention Ratio)
- [3. Claim-Aware Evaluation Cards](#3. Claim-Aware Evaluation Cards)
- [4. Dataset Shortcut Score](#4. Dataset Shortcut Score)
- [5. Fairness Reportability Score](#5. Fairness Reportability Score)
- 八、执行版路线图
- 九、改进后论文骨架
-
- [1. 最终推荐题目](#1. 最终推荐题目)
- [2. 一句话 thesis](#2. 一句话 thesis)
- [3. 4 条贡献](#3. 4 条贡献)
- [4. Section 结构](#4. Section 结构)
-
- [1. Introduction](#1. Introduction)
- [2. Related Work](#2. Related Work)
- [3. Dataset Registry and Claim-Boundary Ontology](#3. Dataset Registry and Claim-Boundary Ontology)
- [4. SpeechHealth-Eval Task Suite](#4. SpeechHealth-Eval Task Suite)
- [5. Models and Usage Protocols](#5. Models and Usage Protocols)
- [6. Main Results: Multi-Axis Scorecard](#6. Main Results: Multi-Axis Scorecard)
- [7. Evaluation Validity and Failure Analysis](#7. Evaluation Validity and Failure Analysis)
- [8. Benchmark Release and Reproducibility](#8. Benchmark Release and Reproducibility)
- [9. Limitations, Ethics, and Responsible Use](#9. Limitations, Ethics, and Responsible Use)
- [5. Main paper 应该放哪些实验](#5. Main paper 应该放哪些实验)
- [6. Appendix 应该放哪些实验](#6. Appendix 应该放哪些实验)
- [7. 摘要里最适合放的 5 个 findings](#7. 摘要里最适合放的 5 个 findings)
- [8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"](#8. Rebuttal 中如何回应“这只是数据集合并和模型结果表”)
- 最后给你的主线建议
我会把三篇参考论文的启发压缩成一句审稿人视角的判断:
SpeechHealth-Eval 不能再像"27 个数据集 + 多模型表格"。它应该像 BenchX 一样标准化混乱评测,像 FairMedFM 一样构造 Models × Tasks × Usages × Metrics 的审计矩阵,像 MMAR 一样用层级 taxonomy 和 failure analysis 暴露当前模型能力缺口。
NeurIPS 2026 E&D Track 当前已经明确要求数据/代码不是 supplementary,而是提交时需要 final form;涉及 dataset contribution 时还需要 Croissant core metadata 和 Responsible AI metadata。也就是说,你的 artifact 设计必须和论文主张绑定,不能只写"will release"。(NeurIPS)
一、逐篇分析可借鉴点
| 论文 | 最值得借鉴的 benchmark 设计 | 可直接迁移到 SpeechHealth-Eval 的设计 | 迁移时需要修改的地方 | 能增强你论文创新性的点 | 审稿人可能质疑的风险 |
|---|---|---|---|---|---|
| BenchX | 它不是简单比较 MedVLP 分数,而是指出已有 MedVLP 论文因为数据、split、preprocessing、finetuning protocol 不一致导致结论不可比;随后用统一 pretraining/downstream 数据、统一 preprocessing、统一 adaptation protocol 来重新审视方法优劣。BenchX 还发现早期方法在合适配置下可能超过更新方法,从而把叙事提升为"已有结论需要被重新评估"。 | 直接迁移为:SpeechHealth-Eval Standardization Suite。包括统一 audio loading、native/16k 两套采样协议、patient-level split、dataset-level split、low-resource split、统一 feature extraction、统一 optimizer/search space、统一 linear probe / PEFT / full fine-tune 协议。 | BenchX 主要是同一影像模态 chest X-ray;你的数据跨 speech、cough、breath、heart/lung sounds,不能强行一个 preprocessing。需要改成 modality-aware standardization:core speech、respiratory audio、auscultation 三套标准协议。 | Evaluation-induced rank reversal:证明模型排名会因 split、resampling、sampling rate、subject aggregation、metric aggregation 改变。这个比单纯跑更多模型更像 E&D。 | 若你只写"统一处理成 16 kHz + 70/15/15",会被质疑过度简化异构医学音频。必须保留 native sampling 对照、subject-level split、modality-specific protocol。 |
| BenchX | 它为 heterogeneous model architectures 设计统一 task adaptation,而不是让每个模型用自己最有利的 head。BenchX 明确说统一 adaptation 可让性能主要反映 representation ability,而不是 implementation trick。 | 为 speech/audio 模型设计统一 adaptation protocol:frozen encoder + linear head、frozen encoder + MLP head、LoRA/adapter、full fine-tune。所有模型统一 segment length、pooling、subject aggregation、early stopping、hyperparameter budget。 | 语音模型输入长度差异极大:Whisper、WavLM、BEATs、CLAP、Mantis 的上下文窗口和输入格式不同。需要规定 slice-and-aggregate interface,例如 5s/10s/30s segment,mean/attention pooling,subject-level aggregation。 | Model Usage Taxonomy:不是按模型名字排名,而是比较"frozen representation / PEFT / full fine-tune / zero-shot / transcript-cascade"这些 usage。 | 如果每类模型训练预算不同,审稿人会认为不公平。需要报告 compute budget、search space、parameter count、trainable parameter count。 |
| BenchX | Low-resource 1%、10%、100% 评估突出了 foundation model 的 data efficiency。 | 迁移为 1%、5%、10%、100% low-resource adaptation。尤其适合新疾病、新医院、新语言、新设备的少标注场景。 | 医疗语音小数据集很多,1% 可能只有极少 subject。必须使用 subject-level stratified sampling,并设 minimum-subject rule;太小的数据集改用 k-shot:5/10/20 subjects per class。 | Speech health representation reuse curve:展示不同模型在少标注下是否真正可复用。 | 若随机抽样方差太大,需要多 seed、confidence interval、paired bootstrap。 |
| FairMedFM | 它的核心不是单一公平表格,而是 Models × Tasks × Usages × Metrics 的 benchmark 矩阵。它覆盖 17 个数据集、20 个 FMs、多种 usages、utility/fairness/calibration/trade-off metrics。 | SpeechHealth-Eval 应该构造 Model Families × Clinical Tasks × Usage Protocols × Evaluation Claims 矩阵。行不是"Wav2Vec vs Mantis",而是 acoustic ML、spectrogram NN、speech SSL、audio FM、time-series FM、audio-language/cascade。列不是只有 F1,而是 ID、Gen、Open、Cal、Rob、Fair、Protocol Stability。 | FairMedFM 主要处理 imaging sensitive attributes;speech health 的 sensitive attributes 更复杂:age、sex、language、accent、device、speech task、site、disease severity、recording condition。很多数据集缺失元数据。 | Fairness Reportability Score:不是所有数据都能做公平性结论。你可以把"能否报告公平性"本身作为 benchmark finding。 | 审稿人可能认为公平性分析不完整。应明确:主文报告 metadata completeness 与可报告性,公平指标只在 metadata 足够的数据集上计算。 |
| FairMedFM | 它把 fairness metrics 分成 utility、outcome-consistency fairness、predictive-alignment fairness、positive-parity fairness、representation fairness、fairness-utility trade-off。 | 迁移为 speech health 的 reliability/fairness taxonomy:utility、worst-group utility、calibration gap、selective risk gap、representation separability、fairness-reportability、clinical threshold sensitivity。 | Positive parity 在疾病诊断中有风险,因为不同群体真实患病率可能不同。你应弱化 demographic parity,强调 equal opportunity、worst-group AUROC、calibration parity。 | Calibration-aware fairness:高 F1 但某群体 ECE 高,临床上仍不可靠。这个会比普通 subgroup F1 更有医学意义。 | 如果 subgroup label 质量差,会导致错误结论。需要 data card 中标注 sensitive attribute 来源、缺失率、定义差异。 |
| FairMedFM | 它测试 bias mitigation methods,并发现 existing mitigation 在 foundation model setting 中不一定有效。 | 迁移为:测试 group reweighting、class-balanced loss、GroupDRO、domain adversarial、temperature scaling、domain-balanced sampling 是否真的改善 fairness/generalization/calibration。 | 你的主任务不是提出 debias 方法,不要让 mitigation 占主文太多。主文只放 2--3 个简单 mitigation 的 negative finding,完整结果放 appendix。 | "Common fixes are not enough":resampling、class weighting、temperature scaling、domain-balanced sampling 对泛化/公平/校准的作用可能有限。 | 若 mitigation 没跑完整,容易被说 superficial。建议只声称 audit,不声称 solve。 |
| MMAR | 它用 hierarchical task taxonomy,把 audio reasoning 分成 Signal、Perception、Semantic、Cultural 层;page 5 的 Figure 2 同时展示 modality distribution、task taxonomy、benchmark statistics,让评审一眼看到 benchmark 不是随意拼接。 | 迁移为 SpeechHealth Task Taxonomy:Signal/acoustic biomarker → phonation/articulation → linguistic/cognitive/affective → clinical disease assessment → reliability/deployment claims。也要做 modality distribution、disease distribution、task distribution、metadata completeness distribution。 | 不能照搬 Signal/Perception/Semantic/Cultural。speech health 的层级必须与医学机制、语音任务、疾病 family 对齐。 | Claim-boundary ontology:每一层明确支持哪些 scientific claim,不支持哪些 claim。例如 cough 数据不能支持 language cognition claim,heart sound 不能支持 speech biomarker claim。 | 如果 taxonomy 只是画图,没有影响 evaluation protocol,会被认为装饰性。必须让 taxonomy 决定 split、metrics、leaderboard 和总分。 |
| MMAR | 它有清楚的数据构建 pipeline:brainstorming → taxonomy construction → heuristic annotation → raw data preparation → quality inspection;page 6 的 Figure 3 展示了完整流程和质控节点。 | 迁移为 Benchmark Construction Pipeline:dataset discovery → eligibility screening → license audit → metadata extraction → ontology mapping → duplicate/leakage audit → split generation → preprocessing validation → evaluation harness QA。 | 你的数据是公开 datasets,不是重新人工标注 QA。质控重点应从"标注问题质量"转为"许可、元数据、split、标签映射、重复样本、subject leakage、dataset leakage"。 | License-aware benchmark pipeline:把旧评审最致命的"where do we get the data, under what license"变成主贡献。 | 如果有数据不能公开下载,必须诚实说明 access mode:direct、gated、request-only、unavailable-for-redistribution。 |
| MMAR | 它把模型分成 LALMs、LARMs、OLMs、caption+LLM、caption+reasoning model,并比较 end-to-end audio 与 cascaded systems。 | 迁移为 speech health 的 direct audio vs transcript/caption cascade:audio encoder classifier、Whisper transcript + clinical LLM classifier、audio caption + LLM、audio embedding + LLM。 | 语音疾病中很多信号不在 transcript 中,例如 jitter、shimmer、breathiness、cough timbre。cascade 不能作为唯一主模型,只能回答"语言信息 vs 声学信息"的贡献。 | Audio-vs-text evidence separation:证明哪些疾病任务依赖 acoustic biomarkers,哪些依赖 linguistic/cognitive content。 | 若 transcript 模型强,评审可能质疑 benchmark 只是 NLP。你需要设计 noise/transcript-only/audio-only 控制实验。 |
| MMAR | 它用 noise input control 检查模型是否真的使用 audio,而不是只靠语言先验;还做 error distribution,page 7/8 讨论噪声输入和任务层级表现,page 31/32 有伦理与 Bonferroni correction。 | 迁移为:audio-shuffle、label-shuffle、dataset-ID-only、metadata-only、transcript-only、noise-replaced-audio、silence-replaced-audio 控制实验。错误分析分成 acoustic miss、linguistic miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol sensitivity。 | 医疗任务不能像 MMAR 那样只看 multiple-choice accuracy。你要看 F1、AUROC、AUPRC、ECE、Brier、risk-coverage、OOD AUROC、retention ratio。 | Benchmark sanity-control suite:每个 leaderboard 必须通过"是否真的用到了 audio/clinical signal"的 sanity checks。 | 如果 noise 控制后性能仍高,可能说明标签/数据集泄漏。要把这作为重要 finding,而不是隐藏。 |
二、重新优化模型选型:从"多跑模型"改成"按评测 claim 组织模型"
2.1 推荐 model family taxonomy
| 模型族 | 代表模型 | P0/P1/P2 | 推荐 protocol | 回答的科学问题 | 主文定位 |
|---|---|---|---|---|---|
| A. Handcrafted acoustic features + classical ML | MFCC、eGeMAPS、openSMILE;LogReg、SVM、RF、XGBoost | P0 必跑 | fixed feature extraction + standardized classifier;class weighting / no resampling 两套 | 低层 acoustic biomarkers 是否已足够?深度模型是否真的超越传统病理声学特征? | 作为医学可解释 baseline,不能删。 |
| B. Spectrogram neural models | CNN、CRNN、AST、PaSST、Conformer-lite | P0/P1 | from scratch + ImageNet/AudioSet pretrained frozen/finetune;统一 MelSpec pipeline | 时频图模型是否捕获 cough/breath/phonation 的局部模式? | 主文放 CNN/CRNN + AST/PaSST 代表。 |
| C. Speech self-supervised models | wav2vec 2.0、HuBERT、WavLM、Whisper encoder | P0 必跑 | frozen linear probe;P1 加 PEFT/LoRA;少量 full fine-tune | 语音 SSL 表征是否能迁移到 speech health?语言预训练是否帮助 AD/depression 等认知任务? | 主文核心模型族。 |
| D. General audio foundation models | BEATs、CLAP、AudioMAE、PANNs、HTS-AT、EAT | P1 强创新 | frozen probe + PEFT;对 cough/breath/HLS 使用 audio-native pipeline | general audio pretraining 是否比 speech SSL 更适合非语音临床音频? | 对 extended clinical audio track 很关键。 |
| E. Time-series / waveform foundation models | Mantis、TS2Vec、TimesNet、PatchTST、wav2vec-style raw encoder | P0/P1 | slice-and-aggregate frozen probe;P1 PEFT | 疾病信号是否更像 temporal physiological pattern,而不是语义 speech representation? | Mantis 旧稿已有,保留但重新定位。 |
| F. Audio-language / speech LLM / cascaded models | Qwen-Audio、Qwen2-Audio、SALMONN、Audio Flamingo;Whisper transcript + LLM;audio caption + LLM;embedding + LLM classifier | P1/P2 | zero-shot prompting;transcript-cascade;caption-cascade;frozen embedding + classifier;不建议 full fine-tune 大 LLM | 语言理解、临床标签描述、推理能力是否提升认知/心理疾病评估?模型是否真正依赖 audio? | 主文放代表性 cascade,对 MMAR 形成呼应。 |
| G. Sanity-control models | dataset-ID classifier、metadata-only classifier、duration-only classifier、sampling-rate classifier、transcript-only classifier | P0 必跑 | 非 audio 或弱 audio features;无深度模型 | 模型是否利用 shortcut?benchmark 是否存在泄漏? | 这是 E&D 评审最爱看的"评测审计"。 |
2.2 P0 / P1 / P2 模型清单
P0:必须跑,保证论文成立
主文只需要 8--10 个代表模型,不要让模型表淹没 evaluation story。
| 类别 | 推荐 P0 模型 | Protocol |
|---|---|---|
| Acoustic classical | eGeMAPS + LogReg;openSMILE + SVM/XGBoost | fixed features + classifier |
| Spectrogram NN | CNN 或 CRNN;AST-base | from scratch + frozen/finetune |
| Speech SSL | wav2vec2-base;WavLM-base;Whisper encoder | frozen linear probe;少量 full fine-tune 对照 |
| Time-series | Mantis | frozen slice-and-aggregate |
| Audio FM | BEATs 或 PANNs | frozen linear probe |
| Sanity controls | dataset-ID、metadata-only、duration/sampling-rate-only | shallow classifier |
P1:强创新,优先加入
| 类别 | 推荐 P1 模型 | Protocol |
|---|---|---|
| Speech SSL expansion | HuBERT、Whisper large-v3 encoder、WavLM-large | frozen + LoRA/adapter |
| Audio FM expansion | CLAP、AudioMAE、HTS-AT、EAT | frozen + PEFT |
| Low-resource | P0/P1 foundation encoders | 1%、5%、10%、100% |
| Cascaded | Whisper transcript + LLM;Qwen2-Audio;SALMONN | zero-shot / transcript-cascade / audio-cascade |
| Robustness | P0 代表模型 | clean vs corrupted test only |
P2:加分项,有时间再做
| 类别 | 推荐 P2 模型 | Protocol |
|---|---|---|
| Large audio-language models | Audio Flamingo、Qwen2-Audio-Instruct、SALMONN variants | API 或 local inference |
| Reasoning cascade | transcript/caption + reasoning LLM | prompt-controlled |
| Domain adaptation | DANN、CORAL、IRM、GroupDRO | only for cross-dataset experiments |
| Calibration ensembles | deep ensemble、MC dropout、temperature scaling variants | logits post-hoc |
| Model cards | 每个 baseline 的 model card | artifact 加分 |
2.3 如何避免模型太多导致论文失焦
你的主文不要排一个 30 模型大表。建议三层组织:
-
Main paper: 6 个 model families × 1--2 个代表模型。
目标是证明 evaluation claims,而不是宣布模型冠军。
-
Appendix: 全模型完整表。
包括 HuBERT、CLAP、AudioMAE、PANNs、HTS-AT、PatchTST、TimesNet、Qwen-Audio 等。
-
Leaderboard: 持续扩展。
论文里写清楚 submission format 与 evaluator,社区模型进入 online leaderboard。
三、重新优化实验设计:NeurIPS E&D 风格实验矩阵
| 实验 | 研究问题 | 参考思想 | 具体做法 | 模型范围 | Split | 指标 | 预期 finding | 反常结果如何解释 | 对主线贡献 |
|---|---|---|---|---|---|---|---|---|---|
| 1. Standardized within-dataset evaluation | 在严格 subject-level 标准协议下,旧有单数据集结论是否仍成立? | BenchX 的统一 preprocessing、split、parameter selection。 | 每个数据集固定 preprocessing、train/val/test manifest;禁止 sample-level leakage;统一 early stopping 与 hyperparameter budget。 | P0 全部 | patient-level within-dataset | macro-F1、balanced accuracy、AUROC、AUPRC、subject-level F1 | within-dataset 分数相对高,但不能代表部署能力。 | 若分数低于文献,可能说明旧文献存在 leakage、不同 split 或过度调参。 | 作为 anchor,不是核心贡献。 |
| 2. Low-resource adaptation: 1%、5%、10%、100% | foundation 表征是否在少标注新疾病/新数据集上更 data-efficient? | BenchX 的 1%、10%、100% data efficiency;你扩展为 1/5/10/100。 | 对每个训练集按 subject 分层抽样;小数据集用 k-shot per class;多 seed。 | speech SSL、audio FM、Mantis、classical | within-dataset + unseen dataset adaptation | learning curve AUC、few-shot AUROC、macro-F1、variance | foundation encoders 在 5--10% 时优于 from-scratch。 | 若 classical 更强,说明病理信号主要是低层 acoustic biomarkers 或预训练目标不匹配。 | 连接 speech health foundation model 叙事。 |
| 3. Leave-one-dataset-out cross-dataset generalization | 模型是否学到 disease signal,而不是 dataset/site/device/language shortcut? | BenchX 的跨任务统一评测 + FairMedFM 的 dataset-aware disparity。 | 同一 disease family 内留一个 dataset 作 test;其余 dataset 训练;每个 family 单独报告。 | P0 + P1 代表模型 | LODO | retention ratio = cross / within;worst-domain AUROC;macro-F1;CI | 跨数据集显著掉分,模型排名变化。 | 若不掉分,说明该 disease family 有稳定声学标志物,或数据集太相似。 | 主文核心实验。 |
| 4. Leave-one-disease-family-out cross-disease transfer | 是否存在可迁移的 speech health representation? | BenchX 的 transferability;FairMedFM 的 FM usage 对比。 | 留出 AD/PD/depression/respiratory 等 family;训练其余 family;再做 zero-shot/frozen/few-shot adaptation。 | speech SSL、audio FM、Mantis、classical | leave-one-family-out | transfer gain、few-shot gain、AUROC、macro-F1 | 表征迁移不稳定;不同模型适合不同 disease family。 | 若迁移很好,检查是否 family 与 dataset confounded,或模型学到 abnormal-vs-control shortcut。 | 支撑"foundation readiness"评估。 |
| 5. Hierarchical taxonomy prediction | flat 68 类分类是否合理?模型能否 coarse-to-fine 识别? | MMAR 的 hierarchical task taxonomy。 | healthy/abnormal → modality/track → disease family → dataset-specific label;不把不可比标签硬合并。 | P0 全部 | multi-dataset fixed splits | hierarchical F1、level-wise AUROC、confusion distance | coarse-level 好,fine-level 差;flat 高分可能来自 dataset identity。 | 若 fine-level 高,需要做 dataset-ID control 验证是否 shortcut。 | 替代旧稿"68 类合并分类"的弱叙事。 |
| 6. Open-set unknown disease detection | 模型遇到训练未见疾病时能否拒识? | E&D 的 stress test 思想;FairMedFM 的 reliability/fairness metrics。 | held-out disease family 或 dataset 作为 unknown;比较 MSP、energy、Mahalanobis、OpenMax、ensemble。 | P0 + selected P1 | known/unknown family split | AUROC-OOD、AUPR-OOD、FPR@95TPR、OSCR、unknown recall | current models open-set 很差,常把 unknown 强行归入 known。 | 若 OOD 很好,检查是否模型只识别 dataset shift,而非 disease novelty。 | 强临床安全性贡献。 |
| 7. Calibration and selective prediction | 高 F1 是否意味着临床可靠? | FairMedFM 的 predictive-alignment fairness 与 ECE gap。 | 计算 logits 校准;temperature scaling、isotonic、ensemble;selective prediction。 | 所有输出概率模型 | within + cross-dataset | ECE、classwise ECE、Brier、NLL、risk-coverage AUC、coverage@risk | 高 F1 模型可能过度自信;cross-dataset 校准崩溃。 | 若校准好,检查是否模型预测保守、类别简单、分布接近。 | 医疗评测核心指标。 |
| 8. Robustness stress test | 采集条件扰动是否改变结论? | MMAR 的 noise input control;BenchX 的 protocol consistency。 | 加噪、混响、MP3/AAC、8k/16k/native、截断、静音、片段长度变化、增益变化。 | P0 代表模型 | clean test → corrupted test | robustness AUC、relative drop、worst-corruption score、rank stability | rank reversal,audio FM/spectrogram 对某些扰动更敏感。 | 若不敏感,说明扰动过弱或模型只用文本/metadata。 | 强化部署场景真实性。 |
| 9. Subgroup fairness and metadata completeness | 性能是否在 age/sex/language/device/task 等群体间稳定?哪些公平性结论可报告? | FairMedFM 的 fairness matrix、sensitive attribute coverage。 | 先做 metadata completeness heatmap;只在元数据足够数据集上算 subgroup metrics。 | P0 代表模型 | within + cross-dataset | worst-group AUROC、ΔAUROC、ΔF1、ECEΔ、reportability score | metadata 缺失严重;可报告数据中存在 subgroup gap。 | 若没有 gap,可能样本太少或 attribute label 粗糙。 | 避免空喊 fairness,建立可报告边界。 |
| 10. Dataset shortcut diagnosis | 模型是否在预测数据集来源而不是疾病? | MMAR 的 sanity control;FairMedFM 的 dataset-aware bias。 | dataset-ID classifier;metadata-only baseline;duration/sampling-rate-only;embedding UMAP;disease-dataset mutual information。 | 所有 encoder embeddings + controls | all-dataset | dataset-ID accuracy、shortcut score、MI、linear separability、UMAP | dataset identity 比 disease identity 更容易分离。 | 若 shortcut 低,说明预处理有效,或数据集 metadata 不足。 | 把"合并数据集"变成"构造并审计 distribution shift"。 |
| 11. Protocol sensitivity audit | split、resampling、sampling rate、metric aggregation 会不会改变结论? | BenchX 通过统一协议重审结论;你进一步评测协议本身。 | random vs patient-level vs dataset-level;oversampling vs class weighting;native vs 16k;sample-level vs subject-level;macro vs weighted。 | 4--6 个代表模型 | 多协议矩阵 | Kendall τ、rank reversal rate、protocol-induced variance、CI overlap | 模型排名经常反转。 | 若不反转,说明 benchmark 稳定,也是正面 finding。 | 最符合 "evaluation itself as scientific object"。 |
| 12. Cascaded audio/text model comparison | transcript/LLM 能否替代 audio encoder?哪些疾病需要 acoustic evidence? | MMAR 的 LALM/LARM/OLM/caption+LLM 分类。 | audio-only、transcript-only、audio+transcript、caption+LLM、noise-audio+text;固定 prompt。 | Whisper transcript + LLM、Qwen2-Audio、SALMONN、P0 audio encoders | AD/depression/speech disorder 优先 | macro-F1、AUROC、calibration、ablation gap | cognitive/psych tasks 受益于 transcript;PD/dysarthria/cough 更依赖 audio。 | 若 text-only 很强,可能语料内容/label leakage 强,需要控制 prompt 和 dataset text。 | 分离 acoustic vs linguistic evidence。 |
| 13. Error analysis and failure taxonomy | 模型具体失败在哪里? | MMAR 的 error distribution,page 7 Figure 6 把错误拆成 perceptual、reasoning、format 等。 | 人工抽样错误;按 acoustic miss、articulation miss、linguistic/cognitive miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol-induced failure 分类。 | P0/P1 代表模型 | error subsets | failure proportion、per-family error、case studies | 主要错误来自 domain shift、OOD overconfidence、shortcut、校准差。 | 若错误分布模糊,增加 clinician/speech scientist annotation guideline。 | 让结果表变成 evaluation science analysis。 |
四、SpeechHealth-Eval task taxonomy
不要照搬 MMAR 的 Signal / Perception / Semantic / Cultural。你的 taxonomy 应该围绕 医学语音机制 + 部署评测 claim 设计。
4.1 推荐 taxonomy
| 层级 | 名称 | 主要信号 | 对应疾病/任务 | 适合模型 | 指标 | 不应混合比较的对象 |
|---|---|---|---|---|---|---|
| Level 0 | Acquisition & Modality Layer | sampling rate、device、duration、task type、language、noise、microphone/stethoscope | 所有数据集;用于质量控制和 shortcut audit | metadata-only、dataset-ID classifier、所有 encoder embeddings | dataset-ID accuracy、metadata completeness、quality coverage | 不能把 microphone speech 与 stethoscope auscultation 当成同一输入域。 |
| Level 1 | Acoustic Biomarker Layer | pitch、jitter、shimmer、HNR、spectral slope、formant、energy、breathiness、cough burst、wheeze | PD、dysarthria、ALS、cleft、respiratory cough/breath | eGeMAPS/openSMILE、CNN/CRNN、BEATs、PANNs、HTS-AT、wav2vec frozen | AUROC、AUPRC、macro-F1、biomarker correlation、robustness drop | 不应与 transcript-only cognitive tasks 混为一类。 |
| Level 2 | Phonation, Articulation & Prosody Layer | sustained vowel、read speech、articulation rate、pause、prosody、intelligibility、slurring | dysarthria、speech disorders、PD、ALS、cleft lip/palate | speech SSL、spectrogram NN、openSMILE、Whisper encoder | macro-F1、severity MAE/correlation、intelligibility-related metrics、subject-level aggregation | 不应把 cough-only respiratory 数据放入此层。 |
| Level 3 | Linguistic, Cognitive & Affective Layer | lexical diversity、semantic coherence、word finding、dialogue behavior、sentiment、response latency、pause structure | Alzheimer's/MCI、depression、psychological disorders、部分 PD cognitive speech | Whisper transcript + LLM、speech SSL、audio-language models、prosody features | AUROC、macro-F1、calibration、transcript-vs-audio ablation | 不应与 sustained-vowel-only PD 直接比较 linguistic ability。 |
| Level 4 | Clinical Condition & Disease Family Layer | healthy vs abnormal、family label、specific condition、severity、unknown disease | 8 大 disease families | 所有模型,但必须分 track | hierarchical F1、balanced accuracy、retention ratio、open-set AUROC | 不应把 dataset-specific label 当作 universal clinical label。 |
| Level 5 | Deployment Reliability Layer | uncertainty、OOD、fairness、robustness、protocol stability | 所有可部署 claim | 所有模型 + calibration/OOD methods | ECE、Brier、risk-coverage、FPR@95TPR、worst-group score、rank reversal | 不应只用 average F1 代表 clinical readiness。 |
4.2 Core speech track vs extended clinical audio track
我建议明确拆成三条 track:
| Track | 包含数据 | 是否进入主 leaderboard | 理由 |
|---|---|---|---|
| Core Speech/Voice Track | speech disorders、dysarthria、Alzheimer's、Parkinson's、rare speech-affecting diseases、psychological speech datasets | 是,主 leaderboard | 这些任务共享 speech/voice 生理或语言机制。 |
| Respiratory Vocal-Audio Track | cough、breath、COVID cough、asthma、Coswara、COUGHVID 等 | 单独 leaderboard | cough/breath 与 speech 同源于 vocal/respiratory tract,但不是 speech;可以作为 clinically adjacent audio。 |
| Extended Auscultation Track | heart/lung sounds, stethoscope recordings, ICBHI lung sounds 若非 speech/breath recording | 不要混入 core 总分;作为 extended track | heart/lung sounds 的采集设备、物理机制和临床任务与 speech-based disease assessment 不同。 |
最重要的一句话:
SpeechHealth-Eval should not claim that heart sounds, lung sounds, coughs, and spoken language are the same modality; it should claim that deployment-ready speech health models must be evaluated under clearly separated modality and claim boundaries.
五、Benchmark artifact 设计
BenchX 给你的启发是 code/config/split/protocol 标准化;FairMedFM 给你的启发是可扩展 library;MMAR 给你的启发是数据构建 pipeline 和 QA 可视化。你应该发布的是一个 evaluation operating system,不是一个 zip 数据包。
5.1 Repo 结构
text
SpeechHealth-Eval/
README.md
CITATION.cff
LICENSE
environment.yml
pyproject.toml
dataset_registry/
datasets.csv
datasets.json
dataset_sources.yaml
access_modes.yaml
checksums.json
metadata_completeness.csv
dataset_statistics.py
label_ontology/
disease_ontology.yaml
modality_ontology.yaml
task_type_ontology.yaml
label_mapping_rules.md
label_mapping_audit.csv
claim_boundaries.md
license_table/
license_table.csv
redistribution_policy.md
data_access_instructions.md
third_party_dataset_terms/
license_audit_report.md
download_scripts/
download_<dataset_id>.py
verify_checksums.py
gated_dataset_templates/
README.md
preprocessing/
audio_loading.py
resampling.py
segmentation.py
vad.py
feature_extraction/
mfcc.py
egemaps.py
opensmile.py
melspec.py
configs/
core_speech.yaml
respiratory_audio.yaml
auscultation.yaml
native_sampling.yaml
sixteen_khz.yaml
split_manifests/
within_dataset/
low_resource/
1pct/
5pct/
10pct/
100pct/
leave_one_dataset_out/
leave_one_family_out/
open_set/
protocol_sensitivity/
split_generation_code.py
leakage_audit_report.md
model_wrappers/
acoustic_ml/
spectrogram_nn/
speech_ssl/
audio_foundation/
time_series/
audio_language/
cascaded_text/
sanity_controls/
base_wrapper.py
segment_pooling.py
evaluation_harness/
predict.py
evaluate.py
submit.py
scorecard.py
config_schema.json
prediction_schema.json
submission_format.md
reproducibility_check.py
metrics/
classification.py
hierarchical.py
calibration.py
selective_prediction.py
open_set.py
robustness.py
fairness.py
shortcut.py
protocol_stability.py
confidence_intervals.py
robustness/
corruptions.py
noise_profiles/
compression.py
resampling_stress.py
truncation.py
corruption_configs.yaml
calibration/
temperature_scaling.py
isotonic.py
reliability_diagrams.py
risk_coverage.py
fairness/
subgroup_metrics.py
metadata_reportability.py
fairness_cards.py
sensitive_attribute_schema.json
protocol_sensitivity/
protocol_grid.yaml
run_protocol_grid.py
rank_reversal.py
kendall_tau.py
shortcut_diagnosis/
dataset_id_classifier.py
metadata_only_baseline.py
embedding_probe.py
mutual_information.py
leakage_checks.py
leaderboards/
standard_supervised.md
frozen_foundation.md
cross_dataset.md
open_set.md
low_resource.md
robustness_calibration.md
protocol_stability.md
extended_audio.md
leaderboard_rules.md
data_cards/
collection_card.md
per_dataset/
<dataset_id>.md
evaluation_cards/
standard_within_dataset.md
cross_dataset_generalization.md
open_set_detection.md
calibration_selective.md
fairness.md
protocol_sensitivity.md
croissant_metadata/
collection_croissant.json
per_dataset/
<dataset_id>_croissant.json
rai_fields.json
responsible_ai/
intended_use.md
out_of_scope_use.md
privacy_risks.md
clinical_risk_statement.md
bias_and_representation.md
annotator_or_curator_statement.md
environmental_cost.md
paper_assets/
figures/
tables/
appendix_tables/
5.2 必须项 vs 加分项
| Artifact | 必须 / 加分 | 内容 | 为什么重要 |
|---|---|---|---|
dataset_registry/ |
必须 | 数据源、样本数、subject 数、时长、语言、设备、任务、label、access mode | 回应旧评审"数据在哪里"。 |
license_table/ |
必须 | 每个数据集 license、redistribution、commercial use、gated/request-only | 医疗数据 benchmark 的生命线。 |
label_ontology/ |
必须 | disease family、modality、task type、原始标签到统一标签映射 | 防止 flat 68 类硬拼。 |
split_manifests/ |
必须 | 固定 subject-level、LODO、LOFO、open-set、low-resource split | benchmark 必须可复现。 |
evaluation_harness/ |
必须 | prediction schema、metric evaluator、submission checker | 让它成为 benchmark 而不是结果展示。 |
croissant_metadata/ |
必须 | collection + per-dataset metadata + RAI fields | NeurIPS E&D dataset contribution 当前要求 Croissant core + Responsible AI metadata。(NeurIPS) |
responsible_ai/ |
必须 | intended use、privacy、clinical limitations、bias、misuse | 医疗语音必须写清边界。 |
model_wrappers/ |
强烈建议 | 统一 inference/training interface | 学 BenchX,减少 architecture-specific unfairness。 |
fairness/ |
强烈建议 | subgroup metrics、reportability score、fairness cards | 学 FairMedFM,把公平性变成矩阵。 |
protocol_sensitivity/ |
强烈建议 | rank reversal、Kendall τ、protocol grid | 你最有 E&D 味道的创新点。 |
shortcut_diagnosis/ |
强烈建议 | dataset-ID、metadata-only、leakage audit | 证明你在审计 benchmark validity。 |
leaderboards/ |
加分但重要 | 多 leaderboard 规则和结果 | 让社区可持续使用。 |
paper_assets/ |
加分 | 自动生成图表和表格 | 可复现论文。 |
六、论文图表设计:15 个图表/表格
| 图表 | 论文部分 | 核心结论 | 参考逻辑 | 如何避免 bake-off |
|---|---|---|---|---|
| Figure 1: SpeechHealth-Eval Overview | Introduction | 27 datasets → ontology → task suite → evaluators → leaderboards → findings | FairMedFM Figure 1 的 pipeline 总览;MMAR Figure 3 的构建流程 | 展示 benchmark system,而不是模型表。 |
| Figure 2: Modality, Disease, Task, and Metadata Distributions | Benchmark Construction | 数据覆盖和缺失边界 | MMAR page 5 Figure 2 的 modality/task/statistics 组合 | 把数据异构性显式暴露。 |
| Table 1: Dataset Registry and License Summary | Benchmark Construction | 每个数据集 access/license/metadata/subject/sample/hour | BenchX dataset table + NeurIPS metadata 要求 | 直接回应"where is data/license"。 |
| Figure 3: Speech Health Claim-Boundary Ontology | Taxonomy | 每层 taxonomy 支持什么 claim | MMAR hierarchical taxonomy | 说明哪些任务不能混合比较。 |
| Table 2: Task Suite Definitions | Evaluation Framework | 每个 task 的 train/test、allowed training、metrics、claim | BenchX benchmark suites | 让 benchmark 协议先于结果。 |
| Figure 4: Models × Tasks × Usages × Metrics Matrix | Model/Evaluation Setup | 哪些模型用什么 protocol 回答什么 claim | FairMedFM Table 1 的矩阵比较 | 不是"多模型",而是 claim-aware matrix。 |
| Table 3: Main Multi-Axis Scorecard | Results | ID、Gen、Open、Cal、Rob、Fair、Protocol Stability | FairMedFM utility/fairness trade-off | 每个模型显示能力 profile,不只平均 F1。 |
| Figure 5: Within vs Cross-Dataset Gap | Cross-dataset | within 高分不能推出跨数据集部署能力 | BenchX 重新审视旧结论 | x=within, y=cross,一眼看到 evaluation illusion。 |
| Figure 6: Leave-One-Dataset-Out Heatmap | Cross-dataset | 哪些 disease family 泛化最差 | benchmark heatmap | 结果以 domain shift 为中心。 |
| Figure 7: Low-Resource Adaptation Curves | Low-resource | foundation representation 是否少样本高效 | BenchX 1/10/100 逻辑 | 展示 sample efficiency,不是冠军。 |
| Figure 8: Dataset Shortcut Diagnosis | Analysis | embedding 更按 dataset 聚类还是 disease 聚类 | MMAR sanity/error analysis | 直接审计 benchmark validity。 |
| Figure 9: Open-Set Failure Plot | Open-set | unknown disease 被过度归入 known | OOD benchmark 逻辑 | 临床安全 claim,而非分类表。 |
| Figure 10: Calibration and Risk-Coverage Curves | Reliability | 高 F1 不等于可靠 | FairMedFM predictive alignment | 医疗可靠性核心。 |
| Figure 11: Metadata Completeness and Fairness Reportability Heatmap | Fairness | 哪些 subgroup 结论可以报告 | FairMedFM sensitive attribute coverage | 把缺失元数据也作为 finding。 |
| Figure 12: Robustness Degradation Curves | Robustness | 噪声、压缩、重采样导致模型排名变化 | MMAR noise control | 展示 acquisition shift。 |
| Figure 13: Protocol-Induced Rank Reversal Bump Chart | Protocol Sensitivity | split/resampling/metric 改变模型排名 | BenchX 标准化启发 | 最强 E&D 图。 |
| Table 4: Benchmark Release Checklist | Artifact/Release | 数据、代码、Croissant、RAI、splits、evaluator 完整性 | NeurIPS E&D artifact expectation | 让评审相信可复现。 |
| Figure 14: Failure Taxonomy Distribution | Error Analysis | 错误来自 acoustic、language、OOD、shortcut、calibration、subgroup | MMAR page 7 Figure 6 error distribution | 从结果转为 failure science。 |
七、建议新增的 5 个杀伤力创新点
1. Protocol-Stability Leaderboard
主文必须放。
定义:模型不仅要分数高,还要在不同 evaluation protocol 下保持结论稳定。
指标:
\\text{Protocol Stability} = 1 - \\frac{\\text{RankReversalRate} + \\text{NormalizedScoreVariance}}{2}
报告:
- Kendall τ across protocols;
- rank reversal rate;
- protocol-induced variance;
- worst-protocol score。
价值:这是最符合 E&D Track 的创新,因为它把 evaluation protocol 本身作为研究对象。
2. Cross-Dataset Retention Ratio
主文必须放。
\\text{Retention}*{m,d} = \\frac{\\text{Score}* {m,\\text{cross-dataset},d}} {\\text{Score}_{m,\\text{within-dataset},d}}
意义:避免模型靠 within-dataset 高分刷榜。一个模型 within F1=0.92、cross F1=0.45,比 within F1=0.82、cross F1=0.70 的模型更不适合部署。
3. Claim-Aware Evaluation Cards
主文介绍,appendix 放完整 cards。
每个任务一张 card:
- evaluation claim;
- supported population;
- training/test distribution;
- allowed adaptation;
- metrics;
- known failure modes;
- unsupported claims;
- ethical/clinical cautions。
价值:把 benchmark 从"数据集说明"升级为"科学 claim 管理"。
4. Dataset Shortcut Score
主文放核心结果。
一个简单版本:
\\text{ShortcutScore} = \\alpha \\cdot \\text{DatasetIDAccuracy} + \\beta \\cdot I(Y;D) + \\gamma \\cdot \\text{MetadataOnlyPerformance}
其中 (Y) 是 disease label,(D) 是 dataset/site label。
如果 shortcut score 高,说明 disease label 与 dataset identity 强耦合。
价值:直接回应"合并数据集动机不清"和"模型可能学数据集差异"。
5. Fairness Reportability Score
主文放 metadata completeness,appendix 放详细 fairness。
\\text{FRS} = \\frac{#\\text{samples with required subgroup metadata}} {#\\text{total samples}} \\times \\text{group balance factor} \\times \\text{label reliability factor}
意义:不是所有数据集都适合做 fairness 结论。你报告"不足以报告公平性"的能力本身,是负责任 benchmark 的体现。
八、执行版路线图
P0:必须完成,否则论文不成立
| 项目 | 数据准备 | 模型 | 计算资源 | 输出图表 | 贡献 | 风险与替代方案 |
|---|---|---|---|---|---|---|
| Dataset registry + license table | 27 dataset source、license、access、sample/subject/hour、metadata | 无 | 低 | Table 1、metadata heatmap | 回应旧评审数据/许可问题 | 若部分 license 不清,标为 "not redistributed; script/index only"。 |
| Label ontology + claim boundaries | 原始 label 映射到 modality/disease/task/taxonomy | 无 | 低 | Figure 3 | 避免 flat 68 类硬拼 | 找 speech clinician 或至少 2 人复核 mapping。 |
| Fixed split manifests | patient-level、LODO、LOFO、open-set、low-resource | 无 | 低 | Table 2 | benchmark 可复现 | subject_id 缺失时用 speaker/session proxy,并标注风险。 |
| Standardized within-dataset baseline | 每数据集 train/val/test | eGeMAPS+LR/SVM、CNN/CRNN、wav2vec2、WavLM、Whisper encoder、Mantis、BEATs/PANNs | 中等;1--4 张 A100 可完成 frozen + CNN | Table 3 | 传统 baseline anchor | 不要把它写成主要贡献。 |
| Cross-dataset LODO | 同 disease family 多 dataset | P0 模型 | 中等 | Figure 5/6 | 主 finding:within 高估 | 若某 family 数据集太少,只对 AD/respiratory/dysarthria 等可行 family 做。 |
| Open-set detection | held-out family/dataset | P0 模型 logits/embeddings | 低到中 | Figure 9 | 临床安全 | 若效果太好,加入 dataset-shift control。 |
| Calibration/selective prediction | 保存 logits | P0 模型 | 低 | Figure 10 | 医疗可靠性 | 若模型无 logits,要求 wrapper 输出 probability。 |
| Protocol sensitivity audit | 多协议 configs | 4--6 代表模型 | 中等 | Figure 13 | 最强 E&D 贡献 | 若算力有限,只跑 frozen features + shallow heads。 |
| Evaluation harness + submission schema | prediction format、evaluator、metrics | 无 | 低 | Table 4 | 真 benchmark artifact | 必须在提交前 final form。 |
P1:强创新,建议优先做
| 项目 | 数据准备 | 模型 | 计算资源 | 输出图表 | 贡献 | 风险与替代方案 |
|---|---|---|---|---|---|---|
| Low-resource 1/5/10/100 | subject-level stratified subsets | speech SSL、audio FM、Mantis、classical | 中到高 | Figure 7 | foundation readiness | 小数据集改 k-shot。 |
| Dataset shortcut diagnosis | dataset_id、metadata、embedding | all encoders + metadata-only | 低到中 | Figure 8 | 合并数据集科学化 | 若 metadata 少,至少做 dataset-ID embedding probe。 |
| Robustness stress test | corrupted test sets | 4--6 代表模型 | 中 | Figure 12 | deployment shift | 扰动强度预先定义,避免 cherry-pick。 |
| Subgroup fairness + reportability | age/sex/language/device/task metadata | P0 代表模型 | 低 | Figure 11 | 负责任 AI | 元数据不足时主打 reportability。 |
| Cascaded audio/text comparison | transcripts/captions | Whisper+LLM、Qwen2-Audio/SALMONN | 中;API 成本可控 | Table/Figure | 分离 acoustic vs linguistic evidence | API 不稳定则放 appendix 或只跑 open-source。 |
| Error taxonomy | 抽样错误 + 人工标注 | P0/P1 代表模型 | 低 | Figure 14 | 从结果到 failure analysis | 需要清楚 annotation guideline。 |
P2:锦上添花
| 项目 | 数据准备 | 模型 | 计算资源 | 输出图表 | 贡献 | 风险与替代方案 |
|---|---|---|---|---|---|---|
| Bias mitigation audit | subgroup + domain labels | GroupDRO、class reweighting、domain adversarial | 中 | appendix table | 呼应 FairMedFM | 不要声称解决 fairness。 |
| External hidden-like holdout | 新公开数据集或保留部分 labels | top models | 中 | external test table | 强化 benchmark 可信度 | 若无新数据,使用 leave-one-source-out。 |
| Online leaderboard demo | evaluator + web page | 无 | 低 | screenshot | 社区影响力 | 提交时至少有 static leaderboard。 |
| Model cards for baselines | 每个模型训练配置 | 无 | 低 | appendix | reproducibility | 可半自动生成。 |
| Clinical deployment readiness score | 多指标合成 | P0/P1 | 低 | appendix | 方便传播 | 主文必须强调 scalar 只是辅助,不替代多维 scorecard。 |
九、改进后论文骨架
1. 最终推荐题目
SpeechHealth-Eval: Claim-Aware Evaluation of Generalization, Reliability, and Open-Set Recognition in Speech-Based Disease Assessment
比原题更强的地方是 "Claim-Aware"。它直接告诉 E&D 评审:本文研究的是 什么评测支持什么科学结论。
备选:
- SpeechHealth-Eval: A Multi-Axis Benchmark for Reliable and Generalizable Speech Health Models
- Beyond Within-Dataset Accuracy: Evaluating Generalization and Reliability in Speech-Based Disease Assessment
- SpeechDx-Eval: Auditing Dataset Shift, Calibration, and Open-Set Failure in Speech Health Models
2. 一句话 thesis
Current speech disease models can appear strong under within-dataset evaluation, but their scientific claims often collapse under cross-dataset, cross-disease, open-set, calibration, robustness, fairness, and protocol-sensitivity audits; SpeechHealth-Eval provides a claim-aware evaluation framework and executable benchmark to measure whether speech health models are ready for real deployment.
3. 4 条贡献
-
Claim-aware evaluation formulation
We reformulate speech-based disease assessment as a set of evaluative claims---within-domain recognition, cross-dataset generalization, cross-disease transfer, open-set rejection, calibration, robustness, fairness, and protocol stability---rather than a single disease classification task.
-
SpeechHealth-Eval benchmark artifact
We build an executable benchmark over 27 public speech/clinical audio health datasets with dataset registry, license/access table, disease/modality ontology, claim boundaries, fixed split manifests, preprocessing pipeline, Croissant metadata, Responsible AI fields, and deterministic evaluation harness.
-
Unified model usage and adaptation matrix
We evaluate handcrafted acoustic models, spectrogram neural models, speech SSL models, audio foundation models, time-series models, and audio-language/cascaded systems under standardized frozen probing, low-resource adaptation, PEFT, full fine-tuning, and transcript/caption-cascade protocols.
-
Evaluation audit and failure analysis
We show that within-dataset scores can overestimate deployment readiness, model rankings can reverse under protocol changes, dataset shortcuts are prevalent, open-set rejection and calibration remain weak, and subgroup/fairness conclusions are limited by metadata completeness.
4. Section 结构
1. Introduction
核心内容:
- speech health 的潜力;
- 现有 SDD 评测碎片化;
- within-dataset accuracy 的误导性;
- 为什么未来 speech health foundation model 需要 claim-aware evaluation;
- SpeechHealth-Eval 的概览与主要 findings。
2. Related Work
建议小节:
- Speech-based disease assessment;
- Medical audio and speech health datasets;
- Speech/audio foundation models;
- Benchmark design and evaluation validity;
- OOD/open-set/calibration in healthcare;
- Fairness and Responsible AI in medical AI。
3. Dataset Registry and Claim-Boundary Ontology
核心内容:
- 27 数据集统计;
- core speech / respiratory audio / auscultation track;
- label ontology;
- metadata completeness;
- license/access;
- claim boundaries。
4. SpeechHealth-Eval Task Suite
核心内容:
- 13 个 task;
- each task: claim、split、allowed adaptation、metrics、unsupported claims;
- leaderboard definitions。
5. Models and Usage Protocols
核心内容:
- model family taxonomy;
- frozen probe、linear probe、PEFT、full fine-tune、zero-shot/cascade;
- compute budget;
- unified segment-pooling interface。
6. Main Results: Multi-Axis Scorecard
核心内容:
- within-dataset vs cross-dataset;
- low-resource;
- open-set;
- calibration;
- robustness;
- fairness reportability;
- protocol stability。
7. Evaluation Validity and Failure Analysis
核心内容:
- dataset shortcut;
- metadata-only baseline;
- UMAP/embedding analysis;
- error taxonomy;
- rank reversal;
- transcript-only/audio-only ablation。
8. Benchmark Release and Reproducibility
核心内容:
- repo structure;
- evaluator;
- split manifests;
- Croissant/RAI;
- data cards/evaluation cards;
- leaderboard rules。
9. Limitations, Ethics, and Responsible Use
核心内容:
- 非临床诊断;
- public dataset bias;
- privacy/re-identification;
- license limitations;
- metadata missingness;
- leaderboard overfitting;
- speech vs cough vs auscultation boundaries。
5. Main paper 应该放哪些实验
主文只放最能支撑 thesis 的实验:
- Dataset registry + ontology + license/access table
- Standardized within-dataset baseline
- Within vs LODO cross-dataset gap
- Low-resource adaptation curves
- Open-set unknown disease detection
- Calibration + selective prediction
- Dataset shortcut diagnosis
- Protocol sensitivity rank reversal
- Metadata completeness + fairness reportability
- Error taxonomy summary
6. Appendix 应该放哪些实验
- 所有模型完整结果表
- 所有 dataset 的 per-dataset card
- 所有 label mapping rules
- 所有 preprocessing configs
- robustness 每种 corruption 详细结果
- bias mitigation audit
- subgroup fairness 完整表
- cascaded LLM prompt details
- hyperparameter search space
- compute resources
- Croissant metadata examples
- evaluator API examples
7. 摘要里最适合放的 5 个 findings
- Within-dataset evaluation substantially overestimates deployment readiness.
- Cross-dataset retention is low and varies sharply across disease families.
- Model rankings are unstable under split, resampling, sampling-rate, and aggregation choices.
- Current models are often poorly calibrated and unreliable under open-set disease shifts.
- Dataset shortcuts and metadata incompleteness limit fairness and clinical claims in existing public speech health datasets.
8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"
可以这样回应:
We agree that simply merging public datasets and reporting model scores would not constitute a strong benchmark contribution. This is precisely why SpeechHealth-Eval is designed as a claim-aware evaluation framework rather than a dataset aggregation. The benchmark defines fixed split manifests, modality-aware preprocessing, disease and task ontologies, license-aware access documentation, Croissant/RAI metadata, deterministic evaluators, and multiple leaderboards. More importantly, our experiments evaluate the validity of common scientific claims in speech disease modeling: whether within-dataset scores transfer across datasets, whether models detect unknown diseases, whether high-F1 models are calibrated, whether subgroup conclusions are reportable, and whether evaluation protocols induce rank reversal. The model results are therefore used as probes of evaluation validity, not as a bake-off.
中文核心版本:
我们不是把 27 个数据集拼起来跑模型,而是在研究:哪些评测协议能支持哪些 speech health model 的科学 claim,哪些常见协议会产生误导性结论。 数据集合并只是构造跨数据集、跨疾病、跨模态、跨采集条件 shift 的基础材料;真正贡献是 claim-aware task suite、固定 split、许可与元数据审计、可执行 evaluator、protocol sensitivity audit 和 failure analysis。
最后给你的主线建议
这篇论文最应该主打的不是"我们有最大的 SDD 数据集合",而是:
SpeechHealth-Eval reveals that the field's current evaluation practice is not sufficient to justify deployment-oriented claims, and provides the standardized tools needed to make those claims testable.
按这个主线写,BenchX、FairMedFM、MMAR 三篇参考论文就不是被动引用,而会变成你论文设计的三根支柱:
- BenchX → standardization and revisiting prior conclusions
- FairMedFM → multi-axis matrix, utility--fairness--calibration trade-off
- MMAR → hierarchical taxonomy, quality pipeline, model capability gap, sanity controls