论文规划框架和实验设计2

文章目录

  • 一、逐篇分析可借鉴点
  • [二、重新优化模型选型:从"多跑模型"改成"按评测 claim 组织模型"](#二、重新优化模型选型:从“多跑模型”改成“按评测 claim 组织模型”)
  • [三、重新优化实验设计:NeurIPS E&D 风格实验矩阵](#三、重新优化实验设计:NeurIPS E&D 风格实验矩阵)
  • [四、SpeechHealth-Eval task taxonomy](#四、SpeechHealth-Eval task taxonomy)
    • [4.1 推荐 taxonomy](#4.1 推荐 taxonomy)
    • [4.2 Core speech track vs extended clinical audio track](#4.2 Core speech track vs extended clinical audio track)
  • [五、Benchmark artifact 设计](#五、Benchmark artifact 设计)
    • [5.1 Repo 结构](#5.1 Repo 结构)
    • [5.2 必须项 vs 加分项](#5.2 必须项 vs 加分项)
  • [六、论文图表设计:15 个图表/表格](#六、论文图表设计:15 个图表/表格)
  • [七、建议新增的 5 个杀伤力创新点](#七、建议新增的 5 个杀伤力创新点)
    • [1. Protocol-Stability Leaderboard](#1. Protocol-Stability Leaderboard)
    • [2. Cross-Dataset Retention Ratio](#2. Cross-Dataset Retention Ratio)
    • [3. Claim-Aware Evaluation Cards](#3. Claim-Aware Evaluation Cards)
    • [4. Dataset Shortcut Score](#4. Dataset Shortcut Score)
    • [5. Fairness Reportability Score](#5. Fairness Reportability Score)
  • 八、执行版路线图
  • 九、改进后论文骨架
    • [1. 最终推荐题目](#1. 最终推荐题目)
    • [2. 一句话 thesis](#2. 一句话 thesis)
    • [3. 4 条贡献](#3. 4 条贡献)
    • [4. Section 结构](#4. Section 结构)
      • [1. Introduction](#1. Introduction)
      • [2. Related Work](#2. Related Work)
      • [3. Dataset Registry and Claim-Boundary Ontology](#3. Dataset Registry and Claim-Boundary Ontology)
      • [4. SpeechHealth-Eval Task Suite](#4. SpeechHealth-Eval Task Suite)
      • [5. Models and Usage Protocols](#5. Models and Usage Protocols)
      • [6. Main Results: Multi-Axis Scorecard](#6. Main Results: Multi-Axis Scorecard)
      • [7. Evaluation Validity and Failure Analysis](#7. Evaluation Validity and Failure Analysis)
      • [8. Benchmark Release and Reproducibility](#8. Benchmark Release and Reproducibility)
      • [9. Limitations, Ethics, and Responsible Use](#9. Limitations, Ethics, and Responsible Use)
    • [5. Main paper 应该放哪些实验](#5. Main paper 应该放哪些实验)
    • [6. Appendix 应该放哪些实验](#6. Appendix 应该放哪些实验)
    • [7. 摘要里最适合放的 5 个 findings](#7. 摘要里最适合放的 5 个 findings)
    • [8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"](#8. Rebuttal 中如何回应“这只是数据集合并和模型结果表”)
  • 最后给你的主线建议

我会把三篇参考论文的启发压缩成一句审稿人视角的判断:

SpeechHealth-Eval 不能再像"27 个数据集 + 多模型表格"。它应该像 BenchX 一样标准化混乱评测,像 FairMedFM 一样构造 Models × Tasks × Usages × Metrics 的审计矩阵,像 MMAR 一样用层级 taxonomy 和 failure analysis 暴露当前模型能力缺口。

NeurIPS 2026 E&D Track 当前已经明确要求数据/代码不是 supplementary,而是提交时需要 final form;涉及 dataset contribution 时还需要 Croissant core metadata 和 Responsible AI metadata。也就是说,你的 artifact 设计必须和论文主张绑定,不能只写"will release"。(NeurIPS)


一、逐篇分析可借鉴点

论文 最值得借鉴的 benchmark 设计 可直接迁移到 SpeechHealth-Eval 的设计 迁移时需要修改的地方 能增强你论文创新性的点 审稿人可能质疑的风险
BenchX 它不是简单比较 MedVLP 分数,而是指出已有 MedVLP 论文因为数据、split、preprocessing、finetuning protocol 不一致导致结论不可比;随后用统一 pretraining/downstream 数据、统一 preprocessing、统一 adaptation protocol 来重新审视方法优劣。BenchX 还发现早期方法在合适配置下可能超过更新方法,从而把叙事提升为"已有结论需要被重新评估"。 直接迁移为:SpeechHealth-Eval Standardization Suite。包括统一 audio loading、native/16k 两套采样协议、patient-level split、dataset-level split、low-resource split、统一 feature extraction、统一 optimizer/search space、统一 linear probe / PEFT / full fine-tune 协议。 BenchX 主要是同一影像模态 chest X-ray;你的数据跨 speech、cough、breath、heart/lung sounds,不能强行一个 preprocessing。需要改成 modality-aware standardization:core speech、respiratory audio、auscultation 三套标准协议。 Evaluation-induced rank reversal:证明模型排名会因 split、resampling、sampling rate、subject aggregation、metric aggregation 改变。这个比单纯跑更多模型更像 E&D。 若你只写"统一处理成 16 kHz + 70/15/15",会被质疑过度简化异构医学音频。必须保留 native sampling 对照、subject-level split、modality-specific protocol。
BenchX 它为 heterogeneous model architectures 设计统一 task adaptation,而不是让每个模型用自己最有利的 head。BenchX 明确说统一 adaptation 可让性能主要反映 representation ability,而不是 implementation trick。 为 speech/audio 模型设计统一 adaptation protocol:frozen encoder + linear head、frozen encoder + MLP head、LoRA/adapter、full fine-tune。所有模型统一 segment length、pooling、subject aggregation、early stopping、hyperparameter budget。 语音模型输入长度差异极大:Whisper、WavLM、BEATs、CLAP、Mantis 的上下文窗口和输入格式不同。需要规定 slice-and-aggregate interface,例如 5s/10s/30s segment,mean/attention pooling,subject-level aggregation。 Model Usage Taxonomy:不是按模型名字排名,而是比较"frozen representation / PEFT / full fine-tune / zero-shot / transcript-cascade"这些 usage。 如果每类模型训练预算不同,审稿人会认为不公平。需要报告 compute budget、search space、parameter count、trainable parameter count。
BenchX Low-resource 1%、10%、100% 评估突出了 foundation model 的 data efficiency。 迁移为 1%、5%、10%、100% low-resource adaptation。尤其适合新疾病、新医院、新语言、新设备的少标注场景。 医疗语音小数据集很多,1% 可能只有极少 subject。必须使用 subject-level stratified sampling,并设 minimum-subject rule;太小的数据集改用 k-shot:5/10/20 subjects per class。 Speech health representation reuse curve:展示不同模型在少标注下是否真正可复用。 若随机抽样方差太大,需要多 seed、confidence interval、paired bootstrap。
FairMedFM 它的核心不是单一公平表格,而是 Models × Tasks × Usages × Metrics 的 benchmark 矩阵。它覆盖 17 个数据集、20 个 FMs、多种 usages、utility/fairness/calibration/trade-off metrics。 SpeechHealth-Eval 应该构造 Model Families × Clinical Tasks × Usage Protocols × Evaluation Claims 矩阵。行不是"Wav2Vec vs Mantis",而是 acoustic ML、spectrogram NN、speech SSL、audio FM、time-series FM、audio-language/cascade。列不是只有 F1,而是 ID、Gen、Open、Cal、Rob、Fair、Protocol Stability。 FairMedFM 主要处理 imaging sensitive attributes;speech health 的 sensitive attributes 更复杂:age、sex、language、accent、device、speech task、site、disease severity、recording condition。很多数据集缺失元数据。 Fairness Reportability Score:不是所有数据都能做公平性结论。你可以把"能否报告公平性"本身作为 benchmark finding。 审稿人可能认为公平性分析不完整。应明确:主文报告 metadata completeness 与可报告性,公平指标只在 metadata 足够的数据集上计算。
FairMedFM 它把 fairness metrics 分成 utility、outcome-consistency fairness、predictive-alignment fairness、positive-parity fairness、representation fairness、fairness-utility trade-off。 迁移为 speech health 的 reliability/fairness taxonomy:utility、worst-group utility、calibration gap、selective risk gap、representation separability、fairness-reportability、clinical threshold sensitivity。 Positive parity 在疾病诊断中有风险,因为不同群体真实患病率可能不同。你应弱化 demographic parity,强调 equal opportunity、worst-group AUROC、calibration parity。 Calibration-aware fairness:高 F1 但某群体 ECE 高,临床上仍不可靠。这个会比普通 subgroup F1 更有医学意义。 如果 subgroup label 质量差,会导致错误结论。需要 data card 中标注 sensitive attribute 来源、缺失率、定义差异。
FairMedFM 它测试 bias mitigation methods,并发现 existing mitigation 在 foundation model setting 中不一定有效。 迁移为:测试 group reweighting、class-balanced loss、GroupDRO、domain adversarial、temperature scaling、domain-balanced sampling 是否真的改善 fairness/generalization/calibration。 你的主任务不是提出 debias 方法,不要让 mitigation 占主文太多。主文只放 2--3 个简单 mitigation 的 negative finding,完整结果放 appendix。 "Common fixes are not enough":resampling、class weighting、temperature scaling、domain-balanced sampling 对泛化/公平/校准的作用可能有限。 若 mitigation 没跑完整,容易被说 superficial。建议只声称 audit,不声称 solve。
MMAR 它用 hierarchical task taxonomy,把 audio reasoning 分成 Signal、Perception、Semantic、Cultural 层;page 5 的 Figure 2 同时展示 modality distribution、task taxonomy、benchmark statistics,让评审一眼看到 benchmark 不是随意拼接。 迁移为 SpeechHealth Task Taxonomy:Signal/acoustic biomarker → phonation/articulation → linguistic/cognitive/affective → clinical disease assessment → reliability/deployment claims。也要做 modality distribution、disease distribution、task distribution、metadata completeness distribution。 不能照搬 Signal/Perception/Semantic/Cultural。speech health 的层级必须与医学机制、语音任务、疾病 family 对齐。 Claim-boundary ontology:每一层明确支持哪些 scientific claim,不支持哪些 claim。例如 cough 数据不能支持 language cognition claim,heart sound 不能支持 speech biomarker claim。 如果 taxonomy 只是画图,没有影响 evaluation protocol,会被认为装饰性。必须让 taxonomy 决定 split、metrics、leaderboard 和总分。
MMAR 它有清楚的数据构建 pipeline:brainstorming → taxonomy construction → heuristic annotation → raw data preparation → quality inspection;page 6 的 Figure 3 展示了完整流程和质控节点。 迁移为 Benchmark Construction Pipeline:dataset discovery → eligibility screening → license audit → metadata extraction → ontology mapping → duplicate/leakage audit → split generation → preprocessing validation → evaluation harness QA。 你的数据是公开 datasets,不是重新人工标注 QA。质控重点应从"标注问题质量"转为"许可、元数据、split、标签映射、重复样本、subject leakage、dataset leakage"。 License-aware benchmark pipeline:把旧评审最致命的"where do we get the data, under what license"变成主贡献。 如果有数据不能公开下载,必须诚实说明 access mode:direct、gated、request-only、unavailable-for-redistribution。
MMAR 它把模型分成 LALMs、LARMs、OLMs、caption+LLM、caption+reasoning model,并比较 end-to-end audio 与 cascaded systems。 迁移为 speech health 的 direct audio vs transcript/caption cascade:audio encoder classifier、Whisper transcript + clinical LLM classifier、audio caption + LLM、audio embedding + LLM。 语音疾病中很多信号不在 transcript 中,例如 jitter、shimmer、breathiness、cough timbre。cascade 不能作为唯一主模型,只能回答"语言信息 vs 声学信息"的贡献。 Audio-vs-text evidence separation:证明哪些疾病任务依赖 acoustic biomarkers,哪些依赖 linguistic/cognitive content。 若 transcript 模型强,评审可能质疑 benchmark 只是 NLP。你需要设计 noise/transcript-only/audio-only 控制实验。
MMAR 它用 noise input control 检查模型是否真的使用 audio,而不是只靠语言先验;还做 error distribution,page 7/8 讨论噪声输入和任务层级表现,page 31/32 有伦理与 Bonferroni correction。 迁移为:audio-shuffle、label-shuffle、dataset-ID-only、metadata-only、transcript-only、noise-replaced-audio、silence-replaced-audio 控制实验。错误分析分成 acoustic miss、linguistic miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol sensitivity。 医疗任务不能像 MMAR 那样只看 multiple-choice accuracy。你要看 F1、AUROC、AUPRC、ECE、Brier、risk-coverage、OOD AUROC、retention ratio。 Benchmark sanity-control suite:每个 leaderboard 必须通过"是否真的用到了 audio/clinical signal"的 sanity checks。 如果 noise 控制后性能仍高,可能说明标签/数据集泄漏。要把这作为重要 finding,而不是隐藏。

二、重新优化模型选型:从"多跑模型"改成"按评测 claim 组织模型"

2.1 推荐 model family taxonomy

模型族 代表模型 P0/P1/P2 推荐 protocol 回答的科学问题 主文定位
A. Handcrafted acoustic features + classical ML MFCC、eGeMAPS、openSMILE;LogReg、SVM、RF、XGBoost P0 必跑 fixed feature extraction + standardized classifier;class weighting / no resampling 两套 低层 acoustic biomarkers 是否已足够?深度模型是否真的超越传统病理声学特征? 作为医学可解释 baseline,不能删。
B. Spectrogram neural models CNN、CRNN、AST、PaSST、Conformer-lite P0/P1 from scratch + ImageNet/AudioSet pretrained frozen/finetune;统一 MelSpec pipeline 时频图模型是否捕获 cough/breath/phonation 的局部模式? 主文放 CNN/CRNN + AST/PaSST 代表。
C. Speech self-supervised models wav2vec 2.0、HuBERT、WavLM、Whisper encoder P0 必跑 frozen linear probe;P1 加 PEFT/LoRA;少量 full fine-tune 语音 SSL 表征是否能迁移到 speech health?语言预训练是否帮助 AD/depression 等认知任务? 主文核心模型族。
D. General audio foundation models BEATs、CLAP、AudioMAE、PANNs、HTS-AT、EAT P1 强创新 frozen probe + PEFT;对 cough/breath/HLS 使用 audio-native pipeline general audio pretraining 是否比 speech SSL 更适合非语音临床音频? 对 extended clinical audio track 很关键。
E. Time-series / waveform foundation models Mantis、TS2Vec、TimesNet、PatchTST、wav2vec-style raw encoder P0/P1 slice-and-aggregate frozen probe;P1 PEFT 疾病信号是否更像 temporal physiological pattern,而不是语义 speech representation? Mantis 旧稿已有,保留但重新定位。
F. Audio-language / speech LLM / cascaded models Qwen-Audio、Qwen2-Audio、SALMONN、Audio Flamingo;Whisper transcript + LLM;audio caption + LLM;embedding + LLM classifier P1/P2 zero-shot prompting;transcript-cascade;caption-cascade;frozen embedding + classifier;不建议 full fine-tune 大 LLM 语言理解、临床标签描述、推理能力是否提升认知/心理疾病评估?模型是否真正依赖 audio? 主文放代表性 cascade,对 MMAR 形成呼应。
G. Sanity-control models dataset-ID classifier、metadata-only classifier、duration-only classifier、sampling-rate classifier、transcript-only classifier P0 必跑 非 audio 或弱 audio features;无深度模型 模型是否利用 shortcut?benchmark 是否存在泄漏? 这是 E&D 评审最爱看的"评测审计"。

2.2 P0 / P1 / P2 模型清单

P0:必须跑,保证论文成立

主文只需要 8--10 个代表模型,不要让模型表淹没 evaluation story。

类别 推荐 P0 模型 Protocol
Acoustic classical eGeMAPS + LogReg;openSMILE + SVM/XGBoost fixed features + classifier
Spectrogram NN CNN 或 CRNN;AST-base from scratch + frozen/finetune
Speech SSL wav2vec2-base;WavLM-base;Whisper encoder frozen linear probe;少量 full fine-tune 对照
Time-series Mantis frozen slice-and-aggregate
Audio FM BEATs 或 PANNs frozen linear probe
Sanity controls dataset-ID、metadata-only、duration/sampling-rate-only shallow classifier

P1:强创新,优先加入

类别 推荐 P1 模型 Protocol
Speech SSL expansion HuBERT、Whisper large-v3 encoder、WavLM-large frozen + LoRA/adapter
Audio FM expansion CLAP、AudioMAE、HTS-AT、EAT frozen + PEFT
Low-resource P0/P1 foundation encoders 1%、5%、10%、100%
Cascaded Whisper transcript + LLM;Qwen2-Audio;SALMONN zero-shot / transcript-cascade / audio-cascade
Robustness P0 代表模型 clean vs corrupted test only

P2:加分项,有时间再做

类别 推荐 P2 模型 Protocol
Large audio-language models Audio Flamingo、Qwen2-Audio-Instruct、SALMONN variants API 或 local inference
Reasoning cascade transcript/caption + reasoning LLM prompt-controlled
Domain adaptation DANN、CORAL、IRM、GroupDRO only for cross-dataset experiments
Calibration ensembles deep ensemble、MC dropout、temperature scaling variants logits post-hoc
Model cards 每个 baseline 的 model card artifact 加分

2.3 如何避免模型太多导致论文失焦

你的主文不要排一个 30 模型大表。建议三层组织:

  1. Main paper: 6 个 model families × 1--2 个代表模型。

    目标是证明 evaluation claims,而不是宣布模型冠军。

  2. Appendix: 全模型完整表。

    包括 HuBERT、CLAP、AudioMAE、PANNs、HTS-AT、PatchTST、TimesNet、Qwen-Audio 等。

  3. Leaderboard: 持续扩展。

    论文里写清楚 submission format 与 evaluator,社区模型进入 online leaderboard。


三、重新优化实验设计:NeurIPS E&D 风格实验矩阵

实验 研究问题 参考思想 具体做法 模型范围 Split 指标 预期 finding 反常结果如何解释 对主线贡献
1. Standardized within-dataset evaluation 在严格 subject-level 标准协议下,旧有单数据集结论是否仍成立? BenchX 的统一 preprocessing、split、parameter selection。 每个数据集固定 preprocessing、train/val/test manifest;禁止 sample-level leakage;统一 early stopping 与 hyperparameter budget。 P0 全部 patient-level within-dataset macro-F1、balanced accuracy、AUROC、AUPRC、subject-level F1 within-dataset 分数相对高,但不能代表部署能力。 若分数低于文献,可能说明旧文献存在 leakage、不同 split 或过度调参。 作为 anchor,不是核心贡献。
2. Low-resource adaptation: 1%、5%、10%、100% foundation 表征是否在少标注新疾病/新数据集上更 data-efficient? BenchX 的 1%、10%、100% data efficiency;你扩展为 1/5/10/100。 对每个训练集按 subject 分层抽样;小数据集用 k-shot per class;多 seed。 speech SSL、audio FM、Mantis、classical within-dataset + unseen dataset adaptation learning curve AUC、few-shot AUROC、macro-F1、variance foundation encoders 在 5--10% 时优于 from-scratch。 若 classical 更强,说明病理信号主要是低层 acoustic biomarkers 或预训练目标不匹配。 连接 speech health foundation model 叙事。
3. Leave-one-dataset-out cross-dataset generalization 模型是否学到 disease signal,而不是 dataset/site/device/language shortcut? BenchX 的跨任务统一评测 + FairMedFM 的 dataset-aware disparity。 同一 disease family 内留一个 dataset 作 test;其余 dataset 训练;每个 family 单独报告。 P0 + P1 代表模型 LODO retention ratio = cross / within;worst-domain AUROC;macro-F1;CI 跨数据集显著掉分,模型排名变化。 若不掉分,说明该 disease family 有稳定声学标志物,或数据集太相似。 主文核心实验。
4. Leave-one-disease-family-out cross-disease transfer 是否存在可迁移的 speech health representation? BenchX 的 transferability;FairMedFM 的 FM usage 对比。 留出 AD/PD/depression/respiratory 等 family;训练其余 family;再做 zero-shot/frozen/few-shot adaptation。 speech SSL、audio FM、Mantis、classical leave-one-family-out transfer gain、few-shot gain、AUROC、macro-F1 表征迁移不稳定;不同模型适合不同 disease family。 若迁移很好,检查是否 family 与 dataset confounded,或模型学到 abnormal-vs-control shortcut。 支撑"foundation readiness"评估。
5. Hierarchical taxonomy prediction flat 68 类分类是否合理?模型能否 coarse-to-fine 识别? MMAR 的 hierarchical task taxonomy。 healthy/abnormal → modality/track → disease family → dataset-specific label;不把不可比标签硬合并。 P0 全部 multi-dataset fixed splits hierarchical F1、level-wise AUROC、confusion distance coarse-level 好,fine-level 差;flat 高分可能来自 dataset identity。 若 fine-level 高,需要做 dataset-ID control 验证是否 shortcut。 替代旧稿"68 类合并分类"的弱叙事。
6. Open-set unknown disease detection 模型遇到训练未见疾病时能否拒识? E&D 的 stress test 思想;FairMedFM 的 reliability/fairness metrics。 held-out disease family 或 dataset 作为 unknown;比较 MSP、energy、Mahalanobis、OpenMax、ensemble。 P0 + selected P1 known/unknown family split AUROC-OOD、AUPR-OOD、FPR@95TPR、OSCR、unknown recall current models open-set 很差,常把 unknown 强行归入 known。 若 OOD 很好,检查是否模型只识别 dataset shift,而非 disease novelty。 强临床安全性贡献。
7. Calibration and selective prediction 高 F1 是否意味着临床可靠? FairMedFM 的 predictive-alignment fairness 与 ECE gap。 计算 logits 校准;temperature scaling、isotonic、ensemble;selective prediction。 所有输出概率模型 within + cross-dataset ECE、classwise ECE、Brier、NLL、risk-coverage AUC、coverage@risk 高 F1 模型可能过度自信;cross-dataset 校准崩溃。 若校准好,检查是否模型预测保守、类别简单、分布接近。 医疗评测核心指标。
8. Robustness stress test 采集条件扰动是否改变结论? MMAR 的 noise input control;BenchX 的 protocol consistency。 加噪、混响、MP3/AAC、8k/16k/native、截断、静音、片段长度变化、增益变化。 P0 代表模型 clean test → corrupted test robustness AUC、relative drop、worst-corruption score、rank stability rank reversal,audio FM/spectrogram 对某些扰动更敏感。 若不敏感,说明扰动过弱或模型只用文本/metadata。 强化部署场景真实性。
9. Subgroup fairness and metadata completeness 性能是否在 age/sex/language/device/task 等群体间稳定?哪些公平性结论可报告? FairMedFM 的 fairness matrix、sensitive attribute coverage。 先做 metadata completeness heatmap;只在元数据足够数据集上算 subgroup metrics。 P0 代表模型 within + cross-dataset worst-group AUROC、ΔAUROC、ΔF1、ECEΔ、reportability score metadata 缺失严重;可报告数据中存在 subgroup gap。 若没有 gap,可能样本太少或 attribute label 粗糙。 避免空喊 fairness,建立可报告边界。
10. Dataset shortcut diagnosis 模型是否在预测数据集来源而不是疾病? MMAR 的 sanity control;FairMedFM 的 dataset-aware bias。 dataset-ID classifier;metadata-only baseline;duration/sampling-rate-only;embedding UMAP;disease-dataset mutual information。 所有 encoder embeddings + controls all-dataset dataset-ID accuracy、shortcut score、MI、linear separability、UMAP dataset identity 比 disease identity 更容易分离。 若 shortcut 低,说明预处理有效,或数据集 metadata 不足。 把"合并数据集"变成"构造并审计 distribution shift"。
11. Protocol sensitivity audit split、resampling、sampling rate、metric aggregation 会不会改变结论? BenchX 通过统一协议重审结论;你进一步评测协议本身。 random vs patient-level vs dataset-level;oversampling vs class weighting;native vs 16k;sample-level vs subject-level;macro vs weighted。 4--6 个代表模型 多协议矩阵 Kendall τ、rank reversal rate、protocol-induced variance、CI overlap 模型排名经常反转。 若不反转,说明 benchmark 稳定,也是正面 finding。 最符合 "evaluation itself as scientific object"。
12. Cascaded audio/text model comparison transcript/LLM 能否替代 audio encoder?哪些疾病需要 acoustic evidence? MMAR 的 LALM/LARM/OLM/caption+LLM 分类。 audio-only、transcript-only、audio+transcript、caption+LLM、noise-audio+text;固定 prompt。 Whisper transcript + LLM、Qwen2-Audio、SALMONN、P0 audio encoders AD/depression/speech disorder 优先 macro-F1、AUROC、calibration、ablation gap cognitive/psych tasks 受益于 transcript;PD/dysarthria/cough 更依赖 audio。 若 text-only 很强,可能语料内容/label leakage 强,需要控制 prompt 和 dataset text。 分离 acoustic vs linguistic evidence。
13. Error analysis and failure taxonomy 模型具体失败在哪里? MMAR 的 error distribution,page 7 Figure 6 把错误拆成 perceptual、reasoning、format 等。 人工抽样错误;按 acoustic miss、articulation miss、linguistic/cognitive miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol-induced failure 分类。 P0/P1 代表模型 error subsets failure proportion、per-family error、case studies 主要错误来自 domain shift、OOD overconfidence、shortcut、校准差。 若错误分布模糊,增加 clinician/speech scientist annotation guideline。 让结果表变成 evaluation science analysis。

四、SpeechHealth-Eval task taxonomy

不要照搬 MMAR 的 Signal / Perception / Semantic / Cultural。你的 taxonomy 应该围绕 医学语音机制 + 部署评测 claim 设计。

4.1 推荐 taxonomy

层级 名称 主要信号 对应疾病/任务 适合模型 指标 不应混合比较的对象
Level 0 Acquisition & Modality Layer sampling rate、device、duration、task type、language、noise、microphone/stethoscope 所有数据集;用于质量控制和 shortcut audit metadata-only、dataset-ID classifier、所有 encoder embeddings dataset-ID accuracy、metadata completeness、quality coverage 不能把 microphone speech 与 stethoscope auscultation 当成同一输入域。
Level 1 Acoustic Biomarker Layer pitch、jitter、shimmer、HNR、spectral slope、formant、energy、breathiness、cough burst、wheeze PD、dysarthria、ALS、cleft、respiratory cough/breath eGeMAPS/openSMILE、CNN/CRNN、BEATs、PANNs、HTS-AT、wav2vec frozen AUROC、AUPRC、macro-F1、biomarker correlation、robustness drop 不应与 transcript-only cognitive tasks 混为一类。
Level 2 Phonation, Articulation & Prosody Layer sustained vowel、read speech、articulation rate、pause、prosody、intelligibility、slurring dysarthria、speech disorders、PD、ALS、cleft lip/palate speech SSL、spectrogram NN、openSMILE、Whisper encoder macro-F1、severity MAE/correlation、intelligibility-related metrics、subject-level aggregation 不应把 cough-only respiratory 数据放入此层。
Level 3 Linguistic, Cognitive & Affective Layer lexical diversity、semantic coherence、word finding、dialogue behavior、sentiment、response latency、pause structure Alzheimer's/MCI、depression、psychological disorders、部分 PD cognitive speech Whisper transcript + LLM、speech SSL、audio-language models、prosody features AUROC、macro-F1、calibration、transcript-vs-audio ablation 不应与 sustained-vowel-only PD 直接比较 linguistic ability。
Level 4 Clinical Condition & Disease Family Layer healthy vs abnormal、family label、specific condition、severity、unknown disease 8 大 disease families 所有模型,但必须分 track hierarchical F1、balanced accuracy、retention ratio、open-set AUROC 不应把 dataset-specific label 当作 universal clinical label。
Level 5 Deployment Reliability Layer uncertainty、OOD、fairness、robustness、protocol stability 所有可部署 claim 所有模型 + calibration/OOD methods ECE、Brier、risk-coverage、FPR@95TPR、worst-group score、rank reversal 不应只用 average F1 代表 clinical readiness。

4.2 Core speech track vs extended clinical audio track

我建议明确拆成三条 track:

Track 包含数据 是否进入主 leaderboard 理由
Core Speech/Voice Track speech disorders、dysarthria、Alzheimer's、Parkinson's、rare speech-affecting diseases、psychological speech datasets 是,主 leaderboard 这些任务共享 speech/voice 生理或语言机制。
Respiratory Vocal-Audio Track cough、breath、COVID cough、asthma、Coswara、COUGHVID 等 单独 leaderboard cough/breath 与 speech 同源于 vocal/respiratory tract,但不是 speech;可以作为 clinically adjacent audio。
Extended Auscultation Track heart/lung sounds, stethoscope recordings, ICBHI lung sounds 若非 speech/breath recording 不要混入 core 总分;作为 extended track heart/lung sounds 的采集设备、物理机制和临床任务与 speech-based disease assessment 不同。

最重要的一句话:

SpeechHealth-Eval should not claim that heart sounds, lung sounds, coughs, and spoken language are the same modality; it should claim that deployment-ready speech health models must be evaluated under clearly separated modality and claim boundaries.


五、Benchmark artifact 设计

BenchX 给你的启发是 code/config/split/protocol 标准化;FairMedFM 给你的启发是可扩展 library;MMAR 给你的启发是数据构建 pipeline 和 QA 可视化。你应该发布的是一个 evaluation operating system,不是一个 zip 数据包。

5.1 Repo 结构

text 复制代码
SpeechHealth-Eval/
  README.md
  CITATION.cff
  LICENSE
  environment.yml
  pyproject.toml

  dataset_registry/
    datasets.csv
    datasets.json
    dataset_sources.yaml
    access_modes.yaml
    checksums.json
    metadata_completeness.csv
    dataset_statistics.py

  label_ontology/
    disease_ontology.yaml
    modality_ontology.yaml
    task_type_ontology.yaml
    label_mapping_rules.md
    label_mapping_audit.csv
    claim_boundaries.md

  license_table/
    license_table.csv
    redistribution_policy.md
    data_access_instructions.md
    third_party_dataset_terms/
    license_audit_report.md

  download_scripts/
    download_<dataset_id>.py
    verify_checksums.py
    gated_dataset_templates/
    README.md

  preprocessing/
    audio_loading.py
    resampling.py
    segmentation.py
    vad.py
    feature_extraction/
      mfcc.py
      egemaps.py
      opensmile.py
      melspec.py
    configs/
      core_speech.yaml
      respiratory_audio.yaml
      auscultation.yaml
      native_sampling.yaml
      sixteen_khz.yaml

  split_manifests/
    within_dataset/
    low_resource/
      1pct/
      5pct/
      10pct/
      100pct/
    leave_one_dataset_out/
    leave_one_family_out/
    open_set/
    protocol_sensitivity/
    split_generation_code.py
    leakage_audit_report.md

  model_wrappers/
    acoustic_ml/
    spectrogram_nn/
    speech_ssl/
    audio_foundation/
    time_series/
    audio_language/
    cascaded_text/
    sanity_controls/
    base_wrapper.py
    segment_pooling.py

  evaluation_harness/
    predict.py
    evaluate.py
    submit.py
    scorecard.py
    config_schema.json
    prediction_schema.json
    submission_format.md
    reproducibility_check.py

  metrics/
    classification.py
    hierarchical.py
    calibration.py
    selective_prediction.py
    open_set.py
    robustness.py
    fairness.py
    shortcut.py
    protocol_stability.py
    confidence_intervals.py

  robustness/
    corruptions.py
    noise_profiles/
    compression.py
    resampling_stress.py
    truncation.py
    corruption_configs.yaml

  calibration/
    temperature_scaling.py
    isotonic.py
    reliability_diagrams.py
    risk_coverage.py

  fairness/
    subgroup_metrics.py
    metadata_reportability.py
    fairness_cards.py
    sensitive_attribute_schema.json

  protocol_sensitivity/
    protocol_grid.yaml
    run_protocol_grid.py
    rank_reversal.py
    kendall_tau.py

  shortcut_diagnosis/
    dataset_id_classifier.py
    metadata_only_baseline.py
    embedding_probe.py
    mutual_information.py
    leakage_checks.py

  leaderboards/
    standard_supervised.md
    frozen_foundation.md
    cross_dataset.md
    open_set.md
    low_resource.md
    robustness_calibration.md
    protocol_stability.md
    extended_audio.md
    leaderboard_rules.md

  data_cards/
    collection_card.md
    per_dataset/
      <dataset_id>.md

  evaluation_cards/
    standard_within_dataset.md
    cross_dataset_generalization.md
    open_set_detection.md
    calibration_selective.md
    fairness.md
    protocol_sensitivity.md

  croissant_metadata/
    collection_croissant.json
    per_dataset/
      <dataset_id>_croissant.json
    rai_fields.json

  responsible_ai/
    intended_use.md
    out_of_scope_use.md
    privacy_risks.md
    clinical_risk_statement.md
    bias_and_representation.md
    annotator_or_curator_statement.md
    environmental_cost.md

  paper_assets/
    figures/
    tables/
    appendix_tables/

5.2 必须项 vs 加分项

Artifact 必须 / 加分 内容 为什么重要
dataset_registry/ 必须 数据源、样本数、subject 数、时长、语言、设备、任务、label、access mode 回应旧评审"数据在哪里"。
license_table/ 必须 每个数据集 license、redistribution、commercial use、gated/request-only 医疗数据 benchmark 的生命线。
label_ontology/ 必须 disease family、modality、task type、原始标签到统一标签映射 防止 flat 68 类硬拼。
split_manifests/ 必须 固定 subject-level、LODO、LOFO、open-set、low-resource split benchmark 必须可复现。
evaluation_harness/ 必须 prediction schema、metric evaluator、submission checker 让它成为 benchmark 而不是结果展示。
croissant_metadata/ 必须 collection + per-dataset metadata + RAI fields NeurIPS E&D dataset contribution 当前要求 Croissant core + Responsible AI metadata。(NeurIPS)
responsible_ai/ 必须 intended use、privacy、clinical limitations、bias、misuse 医疗语音必须写清边界。
model_wrappers/ 强烈建议 统一 inference/training interface 学 BenchX,减少 architecture-specific unfairness。
fairness/ 强烈建议 subgroup metrics、reportability score、fairness cards 学 FairMedFM,把公平性变成矩阵。
protocol_sensitivity/ 强烈建议 rank reversal、Kendall τ、protocol grid 你最有 E&D 味道的创新点。
shortcut_diagnosis/ 强烈建议 dataset-ID、metadata-only、leakage audit 证明你在审计 benchmark validity。
leaderboards/ 加分但重要 多 leaderboard 规则和结果 让社区可持续使用。
paper_assets/ 加分 自动生成图表和表格 可复现论文。

六、论文图表设计:15 个图表/表格

图表 论文部分 核心结论 参考逻辑 如何避免 bake-off
Figure 1: SpeechHealth-Eval Overview Introduction 27 datasets → ontology → task suite → evaluators → leaderboards → findings FairMedFM Figure 1 的 pipeline 总览;MMAR Figure 3 的构建流程 展示 benchmark system,而不是模型表。
Figure 2: Modality, Disease, Task, and Metadata Distributions Benchmark Construction 数据覆盖和缺失边界 MMAR page 5 Figure 2 的 modality/task/statistics 组合 把数据异构性显式暴露。
Table 1: Dataset Registry and License Summary Benchmark Construction 每个数据集 access/license/metadata/subject/sample/hour BenchX dataset table + NeurIPS metadata 要求 直接回应"where is data/license"。
Figure 3: Speech Health Claim-Boundary Ontology Taxonomy 每层 taxonomy 支持什么 claim MMAR hierarchical taxonomy 说明哪些任务不能混合比较。
Table 2: Task Suite Definitions Evaluation Framework 每个 task 的 train/test、allowed training、metrics、claim BenchX benchmark suites 让 benchmark 协议先于结果。
Figure 4: Models × Tasks × Usages × Metrics Matrix Model/Evaluation Setup 哪些模型用什么 protocol 回答什么 claim FairMedFM Table 1 的矩阵比较 不是"多模型",而是 claim-aware matrix。
Table 3: Main Multi-Axis Scorecard Results ID、Gen、Open、Cal、Rob、Fair、Protocol Stability FairMedFM utility/fairness trade-off 每个模型显示能力 profile,不只平均 F1。
Figure 5: Within vs Cross-Dataset Gap Cross-dataset within 高分不能推出跨数据集部署能力 BenchX 重新审视旧结论 x=within, y=cross,一眼看到 evaluation illusion。
Figure 6: Leave-One-Dataset-Out Heatmap Cross-dataset 哪些 disease family 泛化最差 benchmark heatmap 结果以 domain shift 为中心。
Figure 7: Low-Resource Adaptation Curves Low-resource foundation representation 是否少样本高效 BenchX 1/10/100 逻辑 展示 sample efficiency,不是冠军。
Figure 8: Dataset Shortcut Diagnosis Analysis embedding 更按 dataset 聚类还是 disease 聚类 MMAR sanity/error analysis 直接审计 benchmark validity。
Figure 9: Open-Set Failure Plot Open-set unknown disease 被过度归入 known OOD benchmark 逻辑 临床安全 claim,而非分类表。
Figure 10: Calibration and Risk-Coverage Curves Reliability 高 F1 不等于可靠 FairMedFM predictive alignment 医疗可靠性核心。
Figure 11: Metadata Completeness and Fairness Reportability Heatmap Fairness 哪些 subgroup 结论可以报告 FairMedFM sensitive attribute coverage 把缺失元数据也作为 finding。
Figure 12: Robustness Degradation Curves Robustness 噪声、压缩、重采样导致模型排名变化 MMAR noise control 展示 acquisition shift。
Figure 13: Protocol-Induced Rank Reversal Bump Chart Protocol Sensitivity split/resampling/metric 改变模型排名 BenchX 标准化启发 最强 E&D 图。
Table 4: Benchmark Release Checklist Artifact/Release 数据、代码、Croissant、RAI、splits、evaluator 完整性 NeurIPS E&D artifact expectation 让评审相信可复现。
Figure 14: Failure Taxonomy Distribution Error Analysis 错误来自 acoustic、language、OOD、shortcut、calibration、subgroup MMAR page 7 Figure 6 error distribution 从结果转为 failure science。

七、建议新增的 5 个杀伤力创新点

1. Protocol-Stability Leaderboard

主文必须放。

定义:模型不仅要分数高,还要在不同 evaluation protocol 下保持结论稳定。

指标:

\\text{Protocol Stability} = 1 - \\frac{\\text{RankReversalRate} + \\text{NormalizedScoreVariance}}{2}

报告:

  • Kendall τ across protocols;
  • rank reversal rate;
  • protocol-induced variance;
  • worst-protocol score。

价值:这是最符合 E&D Track 的创新,因为它把 evaluation protocol 本身作为研究对象。

2. Cross-Dataset Retention Ratio

主文必须放。

\\text{Retention}*{m,d} = \\frac{\\text{Score}* {m,\\text{cross-dataset},d}} {\\text{Score}_{m,\\text{within-dataset},d}}

意义:避免模型靠 within-dataset 高分刷榜。一个模型 within F1=0.92、cross F1=0.45,比 within F1=0.82、cross F1=0.70 的模型更不适合部署。

3. Claim-Aware Evaluation Cards

主文介绍,appendix 放完整 cards。

每个任务一张 card:

  • evaluation claim;
  • supported population;
  • training/test distribution;
  • allowed adaptation;
  • metrics;
  • known failure modes;
  • unsupported claims;
  • ethical/clinical cautions。

价值:把 benchmark 从"数据集说明"升级为"科学 claim 管理"。

4. Dataset Shortcut Score

主文放核心结果。

一个简单版本:

\\text{ShortcutScore} = \\alpha \\cdot \\text{DatasetIDAccuracy} + \\beta \\cdot I(Y;D) + \\gamma \\cdot \\text{MetadataOnlyPerformance}

其中 (Y) 是 disease label,(D) 是 dataset/site label。

如果 shortcut score 高,说明 disease label 与 dataset identity 强耦合。

价值:直接回应"合并数据集动机不清"和"模型可能学数据集差异"。

5. Fairness Reportability Score

主文放 metadata completeness,appendix 放详细 fairness。

\\text{FRS} = \\frac{#\\text{samples with required subgroup metadata}} {#\\text{total samples}} \\times \\text{group balance factor} \\times \\text{label reliability factor}

意义:不是所有数据集都适合做 fairness 结论。你报告"不足以报告公平性"的能力本身,是负责任 benchmark 的体现。


八、执行版路线图

P0:必须完成,否则论文不成立

项目 数据准备 模型 计算资源 输出图表 贡献 风险与替代方案
Dataset registry + license table 27 dataset source、license、access、sample/subject/hour、metadata Table 1、metadata heatmap 回应旧评审数据/许可问题 若部分 license 不清,标为 "not redistributed; script/index only"。
Label ontology + claim boundaries 原始 label 映射到 modality/disease/task/taxonomy Figure 3 避免 flat 68 类硬拼 找 speech clinician 或至少 2 人复核 mapping。
Fixed split manifests patient-level、LODO、LOFO、open-set、low-resource Table 2 benchmark 可复现 subject_id 缺失时用 speaker/session proxy,并标注风险。
Standardized within-dataset baseline 每数据集 train/val/test eGeMAPS+LR/SVM、CNN/CRNN、wav2vec2、WavLM、Whisper encoder、Mantis、BEATs/PANNs 中等;1--4 张 A100 可完成 frozen + CNN Table 3 传统 baseline anchor 不要把它写成主要贡献。
Cross-dataset LODO 同 disease family 多 dataset P0 模型 中等 Figure 5/6 主 finding:within 高估 若某 family 数据集太少,只对 AD/respiratory/dysarthria 等可行 family 做。
Open-set detection held-out family/dataset P0 模型 logits/embeddings 低到中 Figure 9 临床安全 若效果太好,加入 dataset-shift control。
Calibration/selective prediction 保存 logits P0 模型 Figure 10 医疗可靠性 若模型无 logits,要求 wrapper 输出 probability。
Protocol sensitivity audit 多协议 configs 4--6 代表模型 中等 Figure 13 最强 E&D 贡献 若算力有限,只跑 frozen features + shallow heads。
Evaluation harness + submission schema prediction format、evaluator、metrics Table 4 真 benchmark artifact 必须在提交前 final form。

P1:强创新,建议优先做

项目 数据准备 模型 计算资源 输出图表 贡献 风险与替代方案
Low-resource 1/5/10/100 subject-level stratified subsets speech SSL、audio FM、Mantis、classical 中到高 Figure 7 foundation readiness 小数据集改 k-shot。
Dataset shortcut diagnosis dataset_id、metadata、embedding all encoders + metadata-only 低到中 Figure 8 合并数据集科学化 若 metadata 少,至少做 dataset-ID embedding probe。
Robustness stress test corrupted test sets 4--6 代表模型 Figure 12 deployment shift 扰动强度预先定义,避免 cherry-pick。
Subgroup fairness + reportability age/sex/language/device/task metadata P0 代表模型 Figure 11 负责任 AI 元数据不足时主打 reportability。
Cascaded audio/text comparison transcripts/captions Whisper+LLM、Qwen2-Audio/SALMONN 中;API 成本可控 Table/Figure 分离 acoustic vs linguistic evidence API 不稳定则放 appendix 或只跑 open-source。
Error taxonomy 抽样错误 + 人工标注 P0/P1 代表模型 Figure 14 从结果到 failure analysis 需要清楚 annotation guideline。

P2:锦上添花

项目 数据准备 模型 计算资源 输出图表 贡献 风险与替代方案
Bias mitigation audit subgroup + domain labels GroupDRO、class reweighting、domain adversarial appendix table 呼应 FairMedFM 不要声称解决 fairness。
External hidden-like holdout 新公开数据集或保留部分 labels top models external test table 强化 benchmark 可信度 若无新数据,使用 leave-one-source-out。
Online leaderboard demo evaluator + web page screenshot 社区影响力 提交时至少有 static leaderboard。
Model cards for baselines 每个模型训练配置 appendix reproducibility 可半自动生成。
Clinical deployment readiness score 多指标合成 P0/P1 appendix 方便传播 主文必须强调 scalar 只是辅助,不替代多维 scorecard。

九、改进后论文骨架

1. 最终推荐题目

SpeechHealth-Eval: Claim-Aware Evaluation of Generalization, Reliability, and Open-Set Recognition in Speech-Based Disease Assessment

比原题更强的地方是 "Claim-Aware"。它直接告诉 E&D 评审:本文研究的是 什么评测支持什么科学结论

备选:

  1. SpeechHealth-Eval: A Multi-Axis Benchmark for Reliable and Generalizable Speech Health Models
  2. Beyond Within-Dataset Accuracy: Evaluating Generalization and Reliability in Speech-Based Disease Assessment
  3. SpeechDx-Eval: Auditing Dataset Shift, Calibration, and Open-Set Failure in Speech Health Models

2. 一句话 thesis

Current speech disease models can appear strong under within-dataset evaluation, but their scientific claims often collapse under cross-dataset, cross-disease, open-set, calibration, robustness, fairness, and protocol-sensitivity audits; SpeechHealth-Eval provides a claim-aware evaluation framework and executable benchmark to measure whether speech health models are ready for real deployment.

3. 4 条贡献

  1. Claim-aware evaluation formulation

    We reformulate speech-based disease assessment as a set of evaluative claims---within-domain recognition, cross-dataset generalization, cross-disease transfer, open-set rejection, calibration, robustness, fairness, and protocol stability---rather than a single disease classification task.

  2. SpeechHealth-Eval benchmark artifact

    We build an executable benchmark over 27 public speech/clinical audio health datasets with dataset registry, license/access table, disease/modality ontology, claim boundaries, fixed split manifests, preprocessing pipeline, Croissant metadata, Responsible AI fields, and deterministic evaluation harness.

  3. Unified model usage and adaptation matrix

    We evaluate handcrafted acoustic models, spectrogram neural models, speech SSL models, audio foundation models, time-series models, and audio-language/cascaded systems under standardized frozen probing, low-resource adaptation, PEFT, full fine-tuning, and transcript/caption-cascade protocols.

  4. Evaluation audit and failure analysis

    We show that within-dataset scores can overestimate deployment readiness, model rankings can reverse under protocol changes, dataset shortcuts are prevalent, open-set rejection and calibration remain weak, and subgroup/fairness conclusions are limited by metadata completeness.

4. Section 结构

1. Introduction

核心内容:

  • speech health 的潜力;
  • 现有 SDD 评测碎片化;
  • within-dataset accuracy 的误导性;
  • 为什么未来 speech health foundation model 需要 claim-aware evaluation;
  • SpeechHealth-Eval 的概览与主要 findings。

建议小节:

  • Speech-based disease assessment;
  • Medical audio and speech health datasets;
  • Speech/audio foundation models;
  • Benchmark design and evaluation validity;
  • OOD/open-set/calibration in healthcare;
  • Fairness and Responsible AI in medical AI。

3. Dataset Registry and Claim-Boundary Ontology

核心内容:

  • 27 数据集统计;
  • core speech / respiratory audio / auscultation track;
  • label ontology;
  • metadata completeness;
  • license/access;
  • claim boundaries。

4. SpeechHealth-Eval Task Suite

核心内容:

  • 13 个 task;
  • each task: claim、split、allowed adaptation、metrics、unsupported claims;
  • leaderboard definitions。

5. Models and Usage Protocols

核心内容:

  • model family taxonomy;
  • frozen probe、linear probe、PEFT、full fine-tune、zero-shot/cascade;
  • compute budget;
  • unified segment-pooling interface。

6. Main Results: Multi-Axis Scorecard

核心内容:

  • within-dataset vs cross-dataset;
  • low-resource;
  • open-set;
  • calibration;
  • robustness;
  • fairness reportability;
  • protocol stability。

7. Evaluation Validity and Failure Analysis

核心内容:

  • dataset shortcut;
  • metadata-only baseline;
  • UMAP/embedding analysis;
  • error taxonomy;
  • rank reversal;
  • transcript-only/audio-only ablation。

8. Benchmark Release and Reproducibility

核心内容:

  • repo structure;
  • evaluator;
  • split manifests;
  • Croissant/RAI;
  • data cards/evaluation cards;
  • leaderboard rules。

9. Limitations, Ethics, and Responsible Use

核心内容:

  • 非临床诊断;
  • public dataset bias;
  • privacy/re-identification;
  • license limitations;
  • metadata missingness;
  • leaderboard overfitting;
  • speech vs cough vs auscultation boundaries。

5. Main paper 应该放哪些实验

主文只放最能支撑 thesis 的实验:

  1. Dataset registry + ontology + license/access table
  2. Standardized within-dataset baseline
  3. Within vs LODO cross-dataset gap
  4. Low-resource adaptation curves
  5. Open-set unknown disease detection
  6. Calibration + selective prediction
  7. Dataset shortcut diagnosis
  8. Protocol sensitivity rank reversal
  9. Metadata completeness + fairness reportability
  10. Error taxonomy summary

6. Appendix 应该放哪些实验

  1. 所有模型完整结果表
  2. 所有 dataset 的 per-dataset card
  3. 所有 label mapping rules
  4. 所有 preprocessing configs
  5. robustness 每种 corruption 详细结果
  6. bias mitigation audit
  7. subgroup fairness 完整表
  8. cascaded LLM prompt details
  9. hyperparameter search space
  10. compute resources
  11. Croissant metadata examples
  12. evaluator API examples

7. 摘要里最适合放的 5 个 findings

  1. Within-dataset evaluation substantially overestimates deployment readiness.
  2. Cross-dataset retention is low and varies sharply across disease families.
  3. Model rankings are unstable under split, resampling, sampling-rate, and aggregation choices.
  4. Current models are often poorly calibrated and unreliable under open-set disease shifts.
  5. Dataset shortcuts and metadata incompleteness limit fairness and clinical claims in existing public speech health datasets.

8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"

可以这样回应:

We agree that simply merging public datasets and reporting model scores would not constitute a strong benchmark contribution. This is precisely why SpeechHealth-Eval is designed as a claim-aware evaluation framework rather than a dataset aggregation. The benchmark defines fixed split manifests, modality-aware preprocessing, disease and task ontologies, license-aware access documentation, Croissant/RAI metadata, deterministic evaluators, and multiple leaderboards. More importantly, our experiments evaluate the validity of common scientific claims in speech disease modeling: whether within-dataset scores transfer across datasets, whether models detect unknown diseases, whether high-F1 models are calibrated, whether subgroup conclusions are reportable, and whether evaluation protocols induce rank reversal. The model results are therefore used as probes of evaluation validity, not as a bake-off.

中文核心版本:

我们不是把 27 个数据集拼起来跑模型,而是在研究:哪些评测协议能支持哪些 speech health model 的科学 claim,哪些常见协议会产生误导性结论。 数据集合并只是构造跨数据集、跨疾病、跨模态、跨采集条件 shift 的基础材料;真正贡献是 claim-aware task suite、固定 split、许可与元数据审计、可执行 evaluator、protocol sensitivity audit 和 failure analysis。


最后给你的主线建议

这篇论文最应该主打的不是"我们有最大的 SDD 数据集合",而是:

SpeechHealth-Eval reveals that the field's current evaluation practice is not sufficient to justify deployment-oriented claims, and provides the standardized tools needed to make those claims testable.

按这个主线写,BenchX、FairMedFM、MMAR 三篇参考论文就不是被动引用,而会变成你论文设计的三根支柱:

  • BenchX → standardization and revisiting prior conclusions
  • FairMedFM → multi-axis matrix, utility--fairness--calibration trade-off
  • MMAR → hierarchical taxonomy, quality pipeline, model capability gap, sanity controls
相关推荐
irpywp7 小时前
苦于AI生成的网页千篇一律且粗糙?design-md-chrome :一款网页样式提取插件 ,将任意网站的视觉规范转化为大模型可读的代码指令!
前端·人工智能·chrome·开源·github
聚铭网络7 小时前
【一周安全资讯0425】网安标委技术文件《人工智能应用伦理安全指引》1.0版公开征求意见;Vercel遭第三方OAuth劫持入侵
人工智能·安全
2401_827499997 小时前
机器学习03-线性回归
人工智能·机器学习·线性回归
skilllite作者7 小时前
Warp 终端效能与交互体验全景展示
人工智能·后端·架构·rust
穷人小水滴7 小时前
(AI) 编写简单 MCP 工具 (mcp-run)
人工智能·ai·node.js·agent·mcp
byte轻骑兵7 小时前
【LE Audio】BASS精讲[6]: SDP适配全流程,BR/EDR下的BASS服务互通
人工智能·实时音视频·le audio·低功耗音频·bass
qcx237 小时前
Warp源码深度解析(六):AI Agent的Context管理——从9种上下文到流水线组装
大数据·人工智能·elasticsearch
WHS-_-20227 小时前
Tensor Completion Network for Visual Data
人工智能·深度学习
杰克·Pyo8 小时前
AI 悄然而至 ERP 行业
人工智能·职场和发展