论文规划框架和实验设计2

文章目录

一、逐篇分析可借鉴点
[二、重新优化模型选型：从"多跑模型"改成"按评测 claim 组织模型"](#二、重新优化模型选型：从“多跑模型”改成“按评测 claim 组织模型”)
- [2.1 推荐 model family taxonomy](#2.1 推荐 model family taxonomy)
- [2.2 P0 / P1 / P2 模型清单](#2.2 P0 / P1 / P2 模型清单)
- [2.3 如何避免模型太多导致论文失焦](#2.3 如何避免模型太多导致论文失焦)
[三、重新优化实验设计：NeurIPS E&D 风格实验矩阵](#三、重新优化实验设计：NeurIPS E&D 风格实验矩阵)
[四、SpeechHealth-Eval task taxonomy](#四、SpeechHealth-Eval task taxonomy)
- [4.1 推荐 taxonomy](#4.1 推荐 taxonomy)
- [4.2 Core speech track vs extended clinical audio track](#4.2 Core speech track vs extended clinical audio track)
[五、Benchmark artifact 设计](#五、Benchmark artifact 设计)
- [5.1 Repo 结构](#5.1 Repo 结构)
- [5.2 必须项 vs 加分项](#5.2 必须项 vs 加分项)
[六、论文图表设计：15 个图表/表格](#六、论文图表设计：15 个图表/表格)
[七、建议新增的 5 个杀伤力创新点](#七、建议新增的 5 个杀伤力创新点)
- [1. Protocol-Stability Leaderboard](#1. Protocol-Stability Leaderboard)
- [2. Cross-Dataset Retention Ratio](#2. Cross-Dataset Retention Ratio)
- [3. Claim-Aware Evaluation Cards](#3. Claim-Aware Evaluation Cards)
- [4. Dataset Shortcut Score](#4. Dataset Shortcut Score)
- [5. Fairness Reportability Score](#5. Fairness Reportability Score)
八、执行版路线图
九、改进后论文骨架
- [1. 最终推荐题目](#1. 最终推荐题目)
- [2. 一句话 thesis](#2. 一句话 thesis)
- [3. 4 条贡献](#3. 4 条贡献)
- [4. Section 结构](#4. Section 结构)
- - [1. Introduction](#1. Introduction)
  - [2. Related Work](#2. Related Work)
  - [3. Dataset Registry and Claim-Boundary Ontology](#3. Dataset Registry and Claim-Boundary Ontology)
  - [4. SpeechHealth-Eval Task Suite](#4. SpeechHealth-Eval Task Suite)
  - [5. Models and Usage Protocols](#5. Models and Usage Protocols)
  - [6. Main Results: Multi-Axis Scorecard](#6. Main Results: Multi-Axis Scorecard)
  - [7. Evaluation Validity and Failure Analysis](#7. Evaluation Validity and Failure Analysis)
  - [8. Benchmark Release and Reproducibility](#8. Benchmark Release and Reproducibility)
  - [9. Limitations, Ethics, and Responsible Use](#9. Limitations, Ethics, and Responsible Use)
- [5. Main paper 应该放哪些实验](#5. Main paper 应该放哪些实验)
- [6. Appendix 应该放哪些实验](#6. Appendix 应该放哪些实验)
- [7. 摘要里最适合放的 5 个 findings](#7. 摘要里最适合放的 5 个 findings)
- [8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"](#8. Rebuttal 中如何回应“这只是数据集合并和模型结果表”)
最后给你的主线建议

我会把三篇参考论文的启发压缩成一句审稿人视角的判断：

SpeechHealth-Eval 不能再像"27 个数据集 + 多模型表格"。它应该像 BenchX 一样标准化混乱评测，像 FairMedFM 一样构造 Models × Tasks × Usages × Metrics 的审计矩阵，像 MMAR 一样用层级 taxonomy 和 failure analysis 暴露当前模型能力缺口。

NeurIPS 2026 E&D Track 当前已经明确要求数据/代码不是 supplementary，而是提交时需要 final form；涉及 dataset contribution 时还需要 Croissant core metadata 和 Responsible AI metadata。也就是说，你的 artifact 设计必须和论文主张绑定，不能只写"will release"。(NeurIPS)

一、逐篇分析可借鉴点

论文	最值得借鉴的 benchmark 设计	可直接迁移到 SpeechHealth-Eval 的设计	迁移时需要修改的地方	能增强你论文创新性的点	审稿人可能质疑的风险
BenchX	它不是简单比较 MedVLP 分数，而是指出已有 MedVLP 论文因为数据、split、preprocessing、finetuning protocol 不一致导致结论不可比；随后用统一 pretraining/downstream 数据、统一 preprocessing、统一 adaptation protocol 来重新审视方法优劣。BenchX 还发现早期方法在合适配置下可能超过更新方法，从而把叙事提升为"已有结论需要被重新评估"。	直接迁移为：SpeechHealth-Eval Standardization Suite。包括统一 audio loading、native/16k 两套采样协议、patient-level split、dataset-level split、low-resource split、统一 feature extraction、统一 optimizer/search space、统一 linear probe / PEFT / full fine-tune 协议。	BenchX 主要是同一影像模态 chest X-ray；你的数据跨 speech、cough、breath、heart/lung sounds，不能强行一个 preprocessing。需要改成 modality-aware standardization：core speech、respiratory audio、auscultation 三套标准协议。	Evaluation-induced rank reversal：证明模型排名会因 split、resampling、sampling rate、subject aggregation、metric aggregation 改变。这个比单纯跑更多模型更像 E&D。	若你只写"统一处理成 16 kHz + 70/15/15"，会被质疑过度简化异构医学音频。必须保留 native sampling 对照、subject-level split、modality-specific protocol。
BenchX	它为 heterogeneous model architectures 设计统一 task adaptation，而不是让每个模型用自己最有利的 head。BenchX 明确说统一 adaptation 可让性能主要反映 representation ability，而不是 implementation trick。	为 speech/audio 模型设计统一 adaptation protocol：frozen encoder + linear head、frozen encoder + MLP head、LoRA/adapter、full fine-tune。所有模型统一 segment length、pooling、subject aggregation、early stopping、hyperparameter budget。	语音模型输入长度差异极大：Whisper、WavLM、BEATs、CLAP、Mantis 的上下文窗口和输入格式不同。需要规定 slice-and-aggregate interface，例如 5s/10s/30s segment，mean/attention pooling，subject-level aggregation。	Model Usage Taxonomy：不是按模型名字排名，而是比较"frozen representation / PEFT / full fine-tune / zero-shot / transcript-cascade"这些 usage。	如果每类模型训练预算不同，审稿人会认为不公平。需要报告 compute budget、search space、parameter count、trainable parameter count。
BenchX	Low-resource 1%、10%、100% 评估突出了 foundation model 的 data efficiency。	迁移为 1%、5%、10%、100% low-resource adaptation。尤其适合新疾病、新医院、新语言、新设备的少标注场景。	医疗语音小数据集很多，1% 可能只有极少 subject。必须使用 subject-level stratified sampling，并设 minimum-subject rule；太小的数据集改用 k-shot：5/10/20 subjects per class。	Speech health representation reuse curve：展示不同模型在少标注下是否真正可复用。	若随机抽样方差太大，需要多 seed、confidence interval、paired bootstrap。
FairMedFM	它的核心不是单一公平表格，而是 Models × Tasks × Usages × Metrics 的 benchmark 矩阵。它覆盖 17 个数据集、20 个 FMs、多种 usages、utility/fairness/calibration/trade-off metrics。	SpeechHealth-Eval 应该构造 Model Families × Clinical Tasks × Usage Protocols × Evaluation Claims 矩阵。行不是"Wav2Vec vs Mantis"，而是 acoustic ML、spectrogram NN、speech SSL、audio FM、time-series FM、audio-language/cascade。列不是只有 F1，而是 ID、Gen、Open、Cal、Rob、Fair、Protocol Stability。	FairMedFM 主要处理 imaging sensitive attributes；speech health 的 sensitive attributes 更复杂：age、sex、language、accent、device、speech task、site、disease severity、recording condition。很多数据集缺失元数据。	Fairness Reportability Score：不是所有数据都能做公平性结论。你可以把"能否报告公平性"本身作为 benchmark finding。	审稿人可能认为公平性分析不完整。应明确：主文报告 metadata completeness 与可报告性，公平指标只在 metadata 足够的数据集上计算。
FairMedFM	它把 fairness metrics 分成 utility、outcome-consistency fairness、predictive-alignment fairness、positive-parity fairness、representation fairness、fairness-utility trade-off。	迁移为 speech health 的 reliability/fairness taxonomy：utility、worst-group utility、calibration gap、selective risk gap、representation separability、fairness-reportability、clinical threshold sensitivity。	Positive parity 在疾病诊断中有风险，因为不同群体真实患病率可能不同。你应弱化 demographic parity，强调 equal opportunity、worst-group AUROC、calibration parity。	Calibration-aware fairness：高 F1 但某群体 ECE 高，临床上仍不可靠。这个会比普通 subgroup F1 更有医学意义。	如果 subgroup label 质量差，会导致错误结论。需要 data card 中标注 sensitive attribute 来源、缺失率、定义差异。
FairMedFM	它测试 bias mitigation methods，并发现 existing mitigation 在 foundation model setting 中不一定有效。	迁移为：测试 group reweighting、class-balanced loss、GroupDRO、domain adversarial、temperature scaling、domain-balanced sampling 是否真的改善 fairness/generalization/calibration。	你的主任务不是提出 debias 方法，不要让 mitigation 占主文太多。主文只放 2--3 个简单 mitigation 的 negative finding，完整结果放 appendix。	"Common fixes are not enough"：resampling、class weighting、temperature scaling、domain-balanced sampling 对泛化/公平/校准的作用可能有限。	若 mitigation 没跑完整，容易被说 superficial。建议只声称 audit，不声称 solve。
MMAR	它用 hierarchical task taxonomy，把 audio reasoning 分成 Signal、Perception、Semantic、Cultural 层；page 5 的 Figure 2 同时展示 modality distribution、task taxonomy、benchmark statistics，让评审一眼看到 benchmark 不是随意拼接。	迁移为 SpeechHealth Task Taxonomy：Signal/acoustic biomarker → phonation/articulation → linguistic/cognitive/affective → clinical disease assessment → reliability/deployment claims。也要做 modality distribution、disease distribution、task distribution、metadata completeness distribution。	不能照搬 Signal/Perception/Semantic/Cultural。speech health 的层级必须与医学机制、语音任务、疾病 family 对齐。	Claim-boundary ontology：每一层明确支持哪些 scientific claim，不支持哪些 claim。例如 cough 数据不能支持 language cognition claim，heart sound 不能支持 speech biomarker claim。	如果 taxonomy 只是画图，没有影响 evaluation protocol，会被认为装饰性。必须让 taxonomy 决定 split、metrics、leaderboard 和总分。
MMAR	它有清楚的数据构建 pipeline：brainstorming → taxonomy construction → heuristic annotation → raw data preparation → quality inspection；page 6 的 Figure 3 展示了完整流程和质控节点。	迁移为 Benchmark Construction Pipeline：dataset discovery → eligibility screening → license audit → metadata extraction → ontology mapping → duplicate/leakage audit → split generation → preprocessing validation → evaluation harness QA。	你的数据是公开 datasets，不是重新人工标注 QA。质控重点应从"标注问题质量"转为"许可、元数据、split、标签映射、重复样本、subject leakage、dataset leakage"。	License-aware benchmark pipeline：把旧评审最致命的"where do we get the data, under what license"变成主贡献。	如果有数据不能公开下载，必须诚实说明 access mode：direct、gated、request-only、unavailable-for-redistribution。
MMAR	它把模型分成 LALMs、LARMs、OLMs、caption+LLM、caption+reasoning model，并比较 end-to-end audio 与 cascaded systems。	迁移为 speech health 的 direct audio vs transcript/caption cascade：audio encoder classifier、Whisper transcript + clinical LLM classifier、audio caption + LLM、audio embedding + LLM。	语音疾病中很多信号不在 transcript 中，例如 jitter、shimmer、breathiness、cough timbre。cascade 不能作为唯一主模型，只能回答"语言信息 vs 声学信息"的贡献。	Audio-vs-text evidence separation：证明哪些疾病任务依赖 acoustic biomarkers，哪些依赖 linguistic/cognitive content。	若 transcript 模型强，评审可能质疑 benchmark 只是 NLP。你需要设计 noise/transcript-only/audio-only 控制实验。
MMAR	它用 noise input control 检查模型是否真的使用 audio，而不是只靠语言先验；还做 error distribution，page 7/8 讨论噪声输入和任务层级表现，page 31/32 有伦理与 Bonferroni correction。	迁移为：audio-shuffle、label-shuffle、dataset-ID-only、metadata-only、transcript-only、noise-replaced-audio、silence-replaced-audio 控制实验。错误分析分成 acoustic miss、linguistic miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol sensitivity。	医疗任务不能像 MMAR 那样只看 multiple-choice accuracy。你要看 F1、AUROC、AUPRC、ECE、Brier、risk-coverage、OOD AUROC、retention ratio。	Benchmark sanity-control suite：每个 leaderboard 必须通过"是否真的用到了 audio/clinical signal"的 sanity checks。	如果 noise 控制后性能仍高，可能说明标签/数据集泄漏。要把这作为重要 finding，而不是隐藏。

二、重新优化模型选型：从"多跑模型"改成"按评测 claim 组织模型"

2.1 推荐 model family taxonomy

模型族	代表模型	P0/P1/P2	推荐 protocol	回答的科学问题	主文定位
A. Handcrafted acoustic features + classical ML	MFCC、eGeMAPS、openSMILE；LogReg、SVM、RF、XGBoost	P0 必跑	fixed feature extraction + standardized classifier；class weighting / no resampling 两套	低层 acoustic biomarkers 是否已足够？深度模型是否真的超越传统病理声学特征？	作为医学可解释 baseline，不能删。
B. Spectrogram neural models	CNN、CRNN、AST、PaSST、Conformer-lite	P0/P1	from scratch + ImageNet/AudioSet pretrained frozen/finetune；统一 MelSpec pipeline	时频图模型是否捕获 cough/breath/phonation 的局部模式？	主文放 CNN/CRNN + AST/PaSST 代表。
C. Speech self-supervised models	wav2vec 2.0、HuBERT、WavLM、Whisper encoder	P0 必跑	frozen linear probe；P1 加 PEFT/LoRA；少量 full fine-tune	语音 SSL 表征是否能迁移到 speech health？语言预训练是否帮助 AD/depression 等认知任务？	主文核心模型族。
D. General audio foundation models	BEATs、CLAP、AudioMAE、PANNs、HTS-AT、EAT	P1 强创新	frozen probe + PEFT；对 cough/breath/HLS 使用 audio-native pipeline	general audio pretraining 是否比 speech SSL 更适合非语音临床音频？	对 extended clinical audio track 很关键。
E. Time-series / waveform foundation models	Mantis、TS2Vec、TimesNet、PatchTST、wav2vec-style raw encoder	P0/P1	slice-and-aggregate frozen probe；P1 PEFT	疾病信号是否更像 temporal physiological pattern，而不是语义 speech representation？	Mantis 旧稿已有，保留但重新定位。
F. Audio-language / speech LLM / cascaded models	Qwen-Audio、Qwen2-Audio、SALMONN、Audio Flamingo；Whisper transcript + LLM；audio caption + LLM；embedding + LLM classifier	P1/P2	zero-shot prompting；transcript-cascade；caption-cascade；frozen embedding + classifier；不建议 full fine-tune 大 LLM	语言理解、临床标签描述、推理能力是否提升认知/心理疾病评估？模型是否真正依赖 audio？	主文放代表性 cascade，对 MMAR 形成呼应。
G. Sanity-control models	dataset-ID classifier、metadata-only classifier、duration-only classifier、sampling-rate classifier、transcript-only classifier	P0 必跑	非 audio 或弱 audio features；无深度模型	模型是否利用 shortcut？benchmark 是否存在泄漏？	这是 E&D 评审最爱看的"评测审计"。

2.2 P0 / P1 / P2 模型清单

P0：必须跑，保证论文成立

主文只需要 8--10 个代表模型，不要让模型表淹没 evaluation story。

类别	推荐 P0 模型	Protocol
Acoustic classical	eGeMAPS + LogReg；openSMILE + SVM/XGBoost	fixed features + classifier
Spectrogram NN	CNN 或 CRNN；AST-base	from scratch + frozen/finetune
Speech SSL	wav2vec2-base；WavLM-base；Whisper encoder	frozen linear probe；少量 full fine-tune 对照
Time-series	Mantis	frozen slice-and-aggregate
Audio FM	BEATs 或 PANNs	frozen linear probe
Sanity controls	dataset-ID、metadata-only、duration/sampling-rate-only	shallow classifier

P1：强创新，优先加入

类别	推荐 P1 模型	Protocol
Speech SSL expansion	HuBERT、Whisper large-v3 encoder、WavLM-large	frozen + LoRA/adapter
Audio FM expansion	CLAP、AudioMAE、HTS-AT、EAT	frozen + PEFT
Low-resource	P0/P1 foundation encoders	1%、5%、10%、100%
Cascaded	Whisper transcript + LLM；Qwen2-Audio；SALMONN	zero-shot / transcript-cascade / audio-cascade
Robustness	P0 代表模型	clean vs corrupted test only

P2：加分项，有时间再做

类别	推荐 P2 模型	Protocol
Large audio-language models	Audio Flamingo、Qwen2-Audio-Instruct、SALMONN variants	API 或 local inference
Reasoning cascade	transcript/caption + reasoning LLM	prompt-controlled
Domain adaptation	DANN、CORAL、IRM、GroupDRO	only for cross-dataset experiments
Calibration ensembles	deep ensemble、MC dropout、temperature scaling variants	logits post-hoc
Model cards	每个 baseline 的 model card	artifact 加分

2.3 如何避免模型太多导致论文失焦

你的主文不要排一个 30 模型大表。建议三层组织：

Main paper: 6 个 model families × 1--2 个代表模型。

目标是证明 evaluation claims，而不是宣布模型冠军。
Appendix: 全模型完整表。

包括 HuBERT、CLAP、AudioMAE、PANNs、HTS-AT、PatchTST、TimesNet、Qwen-Audio 等。
Leaderboard: 持续扩展。

论文里写清楚 submission format 与 evaluator，社区模型进入 online leaderboard。

三、重新优化实验设计：NeurIPS E&D 风格实验矩阵

实验	研究问题	参考思想	具体做法	模型范围	Split	指标	预期 finding	反常结果如何解释	对主线贡献
1. Standardized within-dataset evaluation	在严格 subject-level 标准协议下，旧有单数据集结论是否仍成立？	BenchX 的统一 preprocessing、split、parameter selection。	每个数据集固定 preprocessing、train/val/test manifest；禁止 sample-level leakage；统一 early stopping 与 hyperparameter budget。	P0 全部	patient-level within-dataset	macro-F1、balanced accuracy、AUROC、AUPRC、subject-level F1	within-dataset 分数相对高，但不能代表部署能力。	若分数低于文献，可能说明旧文献存在 leakage、不同 split 或过度调参。	作为 anchor，不是核心贡献。
2. Low-resource adaptation: 1%、5%、10%、100%	foundation 表征是否在少标注新疾病/新数据集上更 data-efficient？	BenchX 的 1%、10%、100% data efficiency；你扩展为 1/5/10/100。	对每个训练集按 subject 分层抽样；小数据集用 k-shot per class；多 seed。	speech SSL、audio FM、Mantis、classical	within-dataset + unseen dataset adaptation	learning curve AUC、few-shot AUROC、macro-F1、variance	foundation encoders 在 5--10% 时优于 from-scratch。	若 classical 更强，说明病理信号主要是低层 acoustic biomarkers 或预训练目标不匹配。	连接 speech health foundation model 叙事。
3. Leave-one-dataset-out cross-dataset generalization	模型是否学到 disease signal，而不是 dataset/site/device/language shortcut？	BenchX 的跨任务统一评测 + FairMedFM 的 dataset-aware disparity。	同一 disease family 内留一个 dataset 作 test；其余 dataset 训练；每个 family 单独报告。	P0 + P1 代表模型	LODO	retention ratio = cross / within；worst-domain AUROC；macro-F1；CI	跨数据集显著掉分，模型排名变化。	若不掉分，说明该 disease family 有稳定声学标志物，或数据集太相似。	主文核心实验。
4. Leave-one-disease-family-out cross-disease transfer	是否存在可迁移的 speech health representation？	BenchX 的 transferability；FairMedFM 的 FM usage 对比。	留出 AD/PD/depression/respiratory 等 family；训练其余 family；再做 zero-shot/frozen/few-shot adaptation。	speech SSL、audio FM、Mantis、classical	leave-one-family-out	transfer gain、few-shot gain、AUROC、macro-F1	表征迁移不稳定；不同模型适合不同 disease family。	若迁移很好，检查是否 family 与 dataset confounded，或模型学到 abnormal-vs-control shortcut。	支撑"foundation readiness"评估。
5. Hierarchical taxonomy prediction	flat 68 类分类是否合理？模型能否 coarse-to-fine 识别？	MMAR 的 hierarchical task taxonomy。	healthy/abnormal → modality/track → disease family → dataset-specific label；不把不可比标签硬合并。	P0 全部	multi-dataset fixed splits	hierarchical F1、level-wise AUROC、confusion distance	coarse-level 好，fine-level 差；flat 高分可能来自 dataset identity。	若 fine-level 高，需要做 dataset-ID control 验证是否 shortcut。	替代旧稿"68 类合并分类"的弱叙事。
6. Open-set unknown disease detection	模型遇到训练未见疾病时能否拒识？	E&D 的 stress test 思想；FairMedFM 的 reliability/fairness metrics。	held-out disease family 或 dataset 作为 unknown；比较 MSP、energy、Mahalanobis、OpenMax、ensemble。	P0 + selected P1	known/unknown family split	AUROC-OOD、AUPR-OOD、FPR@95TPR、OSCR、unknown recall	current models open-set 很差，常把 unknown 强行归入 known。	若 OOD 很好，检查是否模型只识别 dataset shift，而非 disease novelty。	强临床安全性贡献。
7. Calibration and selective prediction	高 F1 是否意味着临床可靠？	FairMedFM 的 predictive-alignment fairness 与 ECE gap。	计算 logits 校准；temperature scaling、isotonic、ensemble；selective prediction。	所有输出概率模型	within + cross-dataset	ECE、classwise ECE、Brier、NLL、risk-coverage AUC、coverage@risk	高 F1 模型可能过度自信；cross-dataset 校准崩溃。	若校准好，检查是否模型预测保守、类别简单、分布接近。	医疗评测核心指标。
8. Robustness stress test	采集条件扰动是否改变结论？	MMAR 的 noise input control；BenchX 的 protocol consistency。	加噪、混响、MP3/AAC、8k/16k/native、截断、静音、片段长度变化、增益变化。	P0 代表模型	clean test → corrupted test	robustness AUC、relative drop、worst-corruption score、rank stability	rank reversal，audio FM/spectrogram 对某些扰动更敏感。	若不敏感，说明扰动过弱或模型只用文本/metadata。	强化部署场景真实性。
9. Subgroup fairness and metadata completeness	性能是否在 age/sex/language/device/task 等群体间稳定？哪些公平性结论可报告？	FairMedFM 的 fairness matrix、sensitive attribute coverage。	先做 metadata completeness heatmap；只在元数据足够数据集上算 subgroup metrics。	P0 代表模型	within + cross-dataset	worst-group AUROC、ΔAUROC、ΔF1、ECEΔ、reportability score	metadata 缺失严重；可报告数据中存在 subgroup gap。	若没有 gap，可能样本太少或 attribute label 粗糙。	避免空喊 fairness，建立可报告边界。
10. Dataset shortcut diagnosis	模型是否在预测数据集来源而不是疾病？	MMAR 的 sanity control；FairMedFM 的 dataset-aware bias。	dataset-ID classifier；metadata-only baseline；duration/sampling-rate-only；embedding UMAP；disease-dataset mutual information。	所有 encoder embeddings + controls	all-dataset	dataset-ID accuracy、shortcut score、MI、linear separability、UMAP	dataset identity 比 disease identity 更容易分离。	若 shortcut 低，说明预处理有效，或数据集 metadata 不足。	把"合并数据集"变成"构造并审计 distribution shift"。
11. Protocol sensitivity audit	split、resampling、sampling rate、metric aggregation 会不会改变结论？	BenchX 通过统一协议重审结论；你进一步评测协议本身。	random vs patient-level vs dataset-level；oversampling vs class weighting；native vs 16k；sample-level vs subject-level；macro vs weighted。	4--6 个代表模型	多协议矩阵	Kendall τ、rank reversal rate、protocol-induced variance、CI overlap	模型排名经常反转。	若不反转，说明 benchmark 稳定，也是正面 finding。	最符合 "evaluation itself as scientific object"。
12. Cascaded audio/text model comparison	transcript/LLM 能否替代 audio encoder？哪些疾病需要 acoustic evidence？	MMAR 的 LALM/LARM/OLM/caption+LLM 分类。	audio-only、transcript-only、audio+transcript、caption+LLM、noise-audio+text；固定 prompt。	Whisper transcript + LLM、Qwen2-Audio、SALMONN、P0 audio encoders	AD/depression/speech disorder 优先	macro-F1、AUROC、calibration、ablation gap	cognitive/psych tasks 受益于 transcript；PD/dysarthria/cough 更依赖 audio。	若 text-only 很强，可能语料内容/label leakage 强，需要控制 prompt 和 dataset text。	分离 acoustic vs linguistic evidence。
13. Error analysis and failure taxonomy	模型具体失败在哪里？	MMAR 的 error distribution，page 7 Figure 6 把错误拆成 perceptual、reasoning、format 等。	人工抽样错误；按 acoustic miss、articulation miss、linguistic/cognitive miss、OOD overconfidence、dataset shortcut、subgroup failure、protocol-induced failure 分类。	P0/P1 代表模型	error subsets	failure proportion、per-family error、case studies	主要错误来自 domain shift、OOD overconfidence、shortcut、校准差。	若错误分布模糊，增加 clinician/speech scientist annotation guideline。	让结果表变成 evaluation science analysis。

四、SpeechHealth-Eval task taxonomy

不要照搬 MMAR 的 Signal / Perception / Semantic / Cultural。你的 taxonomy 应该围绕 医学语音机制 + 部署评测 claim 设计。

4.1 推荐 taxonomy

层级	名称	主要信号	对应疾病/任务	适合模型	指标	不应混合比较的对象
Level 0	Acquisition & Modality Layer	sampling rate、device、duration、task type、language、noise、microphone/stethoscope	所有数据集；用于质量控制和 shortcut audit	metadata-only、dataset-ID classifier、所有 encoder embeddings	dataset-ID accuracy、metadata completeness、quality coverage	不能把 microphone speech 与 stethoscope auscultation 当成同一输入域。
Level 1	Acoustic Biomarker Layer	pitch、jitter、shimmer、HNR、spectral slope、formant、energy、breathiness、cough burst、wheeze	PD、dysarthria、ALS、cleft、respiratory cough/breath	eGeMAPS/openSMILE、CNN/CRNN、BEATs、PANNs、HTS-AT、wav2vec frozen	AUROC、AUPRC、macro-F1、biomarker correlation、robustness drop	不应与 transcript-only cognitive tasks 混为一类。
Level 2	Phonation, Articulation & Prosody Layer	sustained vowel、read speech、articulation rate、pause、prosody、intelligibility、slurring	dysarthria、speech disorders、PD、ALS、cleft lip/palate	speech SSL、spectrogram NN、openSMILE、Whisper encoder	macro-F1、severity MAE/correlation、intelligibility-related metrics、subject-level aggregation	不应把 cough-only respiratory 数据放入此层。
Level 3	Linguistic, Cognitive & Affective Layer	lexical diversity、semantic coherence、word finding、dialogue behavior、sentiment、response latency、pause structure	Alzheimer's/MCI、depression、psychological disorders、部分 PD cognitive speech	Whisper transcript + LLM、speech SSL、audio-language models、prosody features	AUROC、macro-F1、calibration、transcript-vs-audio ablation	不应与 sustained-vowel-only PD 直接比较 linguistic ability。
Level 4	Clinical Condition & Disease Family Layer	healthy vs abnormal、family label、specific condition、severity、unknown disease	8 大 disease families	所有模型，但必须分 track	hierarchical F1、balanced accuracy、retention ratio、open-set AUROC	不应把 dataset-specific label 当作 universal clinical label。
Level 5	Deployment Reliability Layer	uncertainty、OOD、fairness、robustness、protocol stability	所有可部署 claim	所有模型 + calibration/OOD methods	ECE、Brier、risk-coverage、FPR@95TPR、worst-group score、rank reversal	不应只用 average F1 代表 clinical readiness。

4.2 Core speech track vs extended clinical audio track

我建议明确拆成三条 track：

Track	包含数据	是否进入主 leaderboard	理由
Core Speech/Voice Track	speech disorders、dysarthria、Alzheimer's、Parkinson's、rare speech-affecting diseases、psychological speech datasets	是，主 leaderboard	这些任务共享 speech/voice 生理或语言机制。
Respiratory Vocal-Audio Track	cough、breath、COVID cough、asthma、Coswara、COUGHVID 等	单独 leaderboard	cough/breath 与 speech 同源于 vocal/respiratory tract，但不是 speech；可以作为 clinically adjacent audio。
Extended Auscultation Track	heart/lung sounds, stethoscope recordings, ICBHI lung sounds 若非 speech/breath recording	不要混入 core 总分；作为 extended track	heart/lung sounds 的采集设备、物理机制和临床任务与 speech-based disease assessment 不同。

最重要的一句话：

SpeechHealth-Eval should not claim that heart sounds, lung sounds, coughs, and spoken language are the same modality; it should claim that deployment-ready speech health models must be evaluated under clearly separated modality and claim boundaries.

五、Benchmark artifact 设计

BenchX 给你的启发是 code/config/split/protocol 标准化；FairMedFM 给你的启发是可扩展 library；MMAR 给你的启发是数据构建 pipeline 和 QA 可视化。你应该发布的是一个 evaluation operating system，不是一个 zip 数据包。

5.1 Repo 结构

text 复制代码

SpeechHealth-Eval/
  README.md
  CITATION.cff
  LICENSE
  environment.yml
  pyproject.toml

  dataset_registry/
    datasets.csv
    datasets.json
    dataset_sources.yaml
    access_modes.yaml
    checksums.json
    metadata_completeness.csv
    dataset_statistics.py

  label_ontology/
    disease_ontology.yaml
    modality_ontology.yaml
    task_type_ontology.yaml
    label_mapping_rules.md
    label_mapping_audit.csv
    claim_boundaries.md

  license_table/
    license_table.csv
    redistribution_policy.md
    data_access_instructions.md
    third_party_dataset_terms/
    license_audit_report.md

  download_scripts/
    download_<dataset_id>.py
    verify_checksums.py
    gated_dataset_templates/
    README.md

  preprocessing/
    audio_loading.py
    resampling.py
    segmentation.py
    vad.py
    feature_extraction/
      mfcc.py
      egemaps.py
      opensmile.py
      melspec.py
    configs/
      core_speech.yaml
      respiratory_audio.yaml
      auscultation.yaml
      native_sampling.yaml
      sixteen_khz.yaml

  split_manifests/
    within_dataset/
    low_resource/
      1pct/
      5pct/
      10pct/
      100pct/
    leave_one_dataset_out/
    leave_one_family_out/
    open_set/
    protocol_sensitivity/
    split_generation_code.py
    leakage_audit_report.md

  model_wrappers/
    acoustic_ml/
    spectrogram_nn/
    speech_ssl/
    audio_foundation/
    time_series/
    audio_language/
    cascaded_text/
    sanity_controls/
    base_wrapper.py
    segment_pooling.py

  evaluation_harness/
    predict.py
    evaluate.py
    submit.py
    scorecard.py
    config_schema.json
    prediction_schema.json
    submission_format.md
    reproducibility_check.py

  metrics/
    classification.py
    hierarchical.py
    calibration.py
    selective_prediction.py
    open_set.py
    robustness.py
    fairness.py
    shortcut.py
    protocol_stability.py
    confidence_intervals.py

  robustness/
    corruptions.py
    noise_profiles/
    compression.py
    resampling_stress.py
    truncation.py
    corruption_configs.yaml

  calibration/
    temperature_scaling.py
    isotonic.py
    reliability_diagrams.py
    risk_coverage.py

  fairness/
    subgroup_metrics.py
    metadata_reportability.py
    fairness_cards.py
    sensitive_attribute_schema.json

  protocol_sensitivity/
    protocol_grid.yaml
    run_protocol_grid.py
    rank_reversal.py
    kendall_tau.py

  shortcut_diagnosis/
    dataset_id_classifier.py
    metadata_only_baseline.py
    embedding_probe.py
    mutual_information.py
    leakage_checks.py

  leaderboards/
    standard_supervised.md
    frozen_foundation.md
    cross_dataset.md
    open_set.md
    low_resource.md
    robustness_calibration.md
    protocol_stability.md
    extended_audio.md
    leaderboard_rules.md

  data_cards/
    collection_card.md
    per_dataset/
      <dataset_id>.md

  evaluation_cards/
    standard_within_dataset.md
    cross_dataset_generalization.md
    open_set_detection.md
    calibration_selective.md
    fairness.md
    protocol_sensitivity.md

  croissant_metadata/
    collection_croissant.json
    per_dataset/
      <dataset_id>_croissant.json
    rai_fields.json

  responsible_ai/
    intended_use.md
    out_of_scope_use.md
    privacy_risks.md
    clinical_risk_statement.md
    bias_and_representation.md
    annotator_or_curator_statement.md
    environmental_cost.md

  paper_assets/
    figures/
    tables/
    appendix_tables/

5.2 必须项 vs 加分项

Artifact	必须 / 加分	内容	为什么重要
`dataset_registry/`	必须	数据源、样本数、subject 数、时长、语言、设备、任务、label、access mode	回应旧评审"数据在哪里"。
`license_table/`	必须	每个数据集 license、redistribution、commercial use、gated/request-only	医疗数据 benchmark 的生命线。
`label_ontology/`	必须	disease family、modality、task type、原始标签到统一标签映射	防止 flat 68 类硬拼。
`split_manifests/`	必须	固定 subject-level、LODO、LOFO、open-set、low-resource split	benchmark 必须可复现。
`evaluation_harness/`	必须	prediction schema、metric evaluator、submission checker	让它成为 benchmark 而不是结果展示。
`croissant_metadata/`	必须	collection + per-dataset metadata + RAI fields	NeurIPS E&D dataset contribution 当前要求 Croissant core + Responsible AI metadata。(NeurIPS)
`responsible_ai/`	必须	intended use、privacy、clinical limitations、bias、misuse	医疗语音必须写清边界。
`model_wrappers/`	强烈建议	统一 inference/training interface	学 BenchX，减少 architecture-specific unfairness。
`fairness/`	强烈建议	subgroup metrics、reportability score、fairness cards	学 FairMedFM，把公平性变成矩阵。
`protocol_sensitivity/`	强烈建议	rank reversal、Kendall τ、protocol grid	你最有 E&D 味道的创新点。
`shortcut_diagnosis/`	强烈建议	dataset-ID、metadata-only、leakage audit	证明你在审计 benchmark validity。
`leaderboards/`	加分但重要	多 leaderboard 规则和结果	让社区可持续使用。
`paper_assets/`	加分	自动生成图表和表格	可复现论文。

六、论文图表设计：15 个图表/表格

图表	论文部分	核心结论	参考逻辑	如何避免 bake-off
Figure 1: SpeechHealth-Eval Overview	Introduction	27 datasets → ontology → task suite → evaluators → leaderboards → findings	FairMedFM Figure 1 的 pipeline 总览；MMAR Figure 3 的构建流程	展示 benchmark system，而不是模型表。
Figure 2: Modality, Disease, Task, and Metadata Distributions	Benchmark Construction	数据覆盖和缺失边界	MMAR page 5 Figure 2 的 modality/task/statistics 组合	把数据异构性显式暴露。
Table 1: Dataset Registry and License Summary	Benchmark Construction	每个数据集 access/license/metadata/subject/sample/hour	BenchX dataset table + NeurIPS metadata 要求	直接回应"where is data/license"。
Figure 3: Speech Health Claim-Boundary Ontology	Taxonomy	每层 taxonomy 支持什么 claim	MMAR hierarchical taxonomy	说明哪些任务不能混合比较。
Table 2: Task Suite Definitions	Evaluation Framework	每个 task 的 train/test、allowed training、metrics、claim	BenchX benchmark suites	让 benchmark 协议先于结果。
Figure 4: Models × Tasks × Usages × Metrics Matrix	Model/Evaluation Setup	哪些模型用什么 protocol 回答什么 claim	FairMedFM Table 1 的矩阵比较	不是"多模型"，而是 claim-aware matrix。
Table 3: Main Multi-Axis Scorecard	Results	ID、Gen、Open、Cal、Rob、Fair、Protocol Stability	FairMedFM utility/fairness trade-off	每个模型显示能力 profile，不只平均 F1。
Figure 5: Within vs Cross-Dataset Gap	Cross-dataset	within 高分不能推出跨数据集部署能力	BenchX 重新审视旧结论	x=within, y=cross，一眼看到 evaluation illusion。
Figure 6: Leave-One-Dataset-Out Heatmap	Cross-dataset	哪些 disease family 泛化最差	benchmark heatmap	结果以 domain shift 为中心。
Figure 7: Low-Resource Adaptation Curves	Low-resource	foundation representation 是否少样本高效	BenchX 1/10/100 逻辑	展示 sample efficiency，不是冠军。
Figure 8: Dataset Shortcut Diagnosis	Analysis	embedding 更按 dataset 聚类还是 disease 聚类	MMAR sanity/error analysis	直接审计 benchmark validity。
Figure 9: Open-Set Failure Plot	Open-set	unknown disease 被过度归入 known	OOD benchmark 逻辑	临床安全 claim，而非分类表。
Figure 10: Calibration and Risk-Coverage Curves	Reliability	高 F1 不等于可靠	FairMedFM predictive alignment	医疗可靠性核心。
Figure 11: Metadata Completeness and Fairness Reportability Heatmap	Fairness	哪些 subgroup 结论可以报告	FairMedFM sensitive attribute coverage	把缺失元数据也作为 finding。
Figure 12: Robustness Degradation Curves	Robustness	噪声、压缩、重采样导致模型排名变化	MMAR noise control	展示 acquisition shift。
Figure 13: Protocol-Induced Rank Reversal Bump Chart	Protocol Sensitivity	split/resampling/metric 改变模型排名	BenchX 标准化启发	最强 E&D 图。
Table 4: Benchmark Release Checklist	Artifact/Release	数据、代码、Croissant、RAI、splits、evaluator 完整性	NeurIPS E&D artifact expectation	让评审相信可复现。
Figure 14: Failure Taxonomy Distribution	Error Analysis	错误来自 acoustic、language、OOD、shortcut、calibration、subgroup	MMAR page 7 Figure 6 error distribution	从结果转为 failure science。

七、建议新增的 5 个杀伤力创新点

1. Protocol-Stability Leaderboard

主文必须放。

定义：模型不仅要分数高，还要在不同 evaluation protocol 下保持结论稳定。

指标：

\\text{Protocol Stability} = 1 - \\frac{\\text{RankReversalRate} + \\text{NormalizedScoreVariance}}{2}

报告：

Kendall τ across protocols；
rank reversal rate；
protocol-induced variance；
worst-protocol score。

价值：这是最符合 E&D Track 的创新，因为它把 evaluation protocol 本身作为研究对象。

2. Cross-Dataset Retention Ratio

主文必须放。

\\text{Retention}*{m,d} = \\frac{\\text{Score}* {m,\\text{cross-dataset},d}} {\\text{Score}_{m,\\text{within-dataset},d}}

意义：避免模型靠 within-dataset 高分刷榜。一个模型 within F1=0.92、cross F1=0.45，比 within F1=0.82、cross F1=0.70 的模型更不适合部署。

3. Claim-Aware Evaluation Cards

主文介绍，appendix 放完整 cards。

每个任务一张 card：

evaluation claim；
supported population；
training/test distribution；
allowed adaptation；
metrics；
known failure modes；
unsupported claims；
ethical/clinical cautions。

价值：把 benchmark 从"数据集说明"升级为"科学 claim 管理"。

4. Dataset Shortcut Score

主文放核心结果。

一个简单版本：

\\text{ShortcutScore} = \\alpha \\cdot \\text{DatasetIDAccuracy} + \\beta \\cdot I(Y;D) + \\gamma \\cdot \\text{MetadataOnlyPerformance}

其中 (Y) 是 disease label，(D) 是 dataset/site label。

如果 shortcut score 高，说明 disease label 与 dataset identity 强耦合。

价值：直接回应"合并数据集动机不清"和"模型可能学数据集差异"。

5. Fairness Reportability Score

主文放 metadata completeness，appendix 放详细 fairness。

\\text{FRS} = \\frac{#\\text{samples with required subgroup metadata}} {#\\text{total samples}} \\times \\text{group balance factor} \\times \\text{label reliability factor}

意义：不是所有数据集都适合做 fairness 结论。你报告"不足以报告公平性"的能力本身，是负责任 benchmark 的体现。

八、执行版路线图

P0：必须完成，否则论文不成立

项目	数据准备	模型	计算资源	输出图表	贡献	风险与替代方案
Dataset registry + license table	27 dataset source、license、access、sample/subject/hour、metadata	无	低	Table 1、metadata heatmap	回应旧评审数据/许可问题	若部分 license 不清，标为 "not redistributed; script/index only"。
Label ontology + claim boundaries	原始 label 映射到 modality/disease/task/taxonomy	无	低	Figure 3	避免 flat 68 类硬拼	找 speech clinician 或至少 2 人复核 mapping。
Fixed split manifests	patient-level、LODO、LOFO、open-set、low-resource	无	低	Table 2	benchmark 可复现	subject_id 缺失时用 speaker/session proxy，并标注风险。
Standardized within-dataset baseline	每数据集 train/val/test	eGeMAPS+LR/SVM、CNN/CRNN、wav2vec2、WavLM、Whisper encoder、Mantis、BEATs/PANNs	中等；1--4 张 A100 可完成 frozen + CNN	Table 3	传统 baseline anchor	不要把它写成主要贡献。
Cross-dataset LODO	同 disease family 多 dataset	P0 模型	中等	Figure 5/6	主 finding：within 高估	若某 family 数据集太少，只对 AD/respiratory/dysarthria 等可行 family 做。
Open-set detection	held-out family/dataset	P0 模型 logits/embeddings	低到中	Figure 9	临床安全	若效果太好，加入 dataset-shift control。
Calibration/selective prediction	保存 logits	P0 模型	低	Figure 10	医疗可靠性	若模型无 logits，要求 wrapper 输出 probability。
Protocol sensitivity audit	多协议 configs	4--6 代表模型	中等	Figure 13	最强 E&D 贡献	若算力有限，只跑 frozen features + shallow heads。
Evaluation harness + submission schema	prediction format、evaluator、metrics	无	低	Table 4	真 benchmark artifact	必须在提交前 final form。

P1：强创新，建议优先做

项目	数据准备	模型	计算资源	输出图表	贡献	风险与替代方案
Low-resource 1/5/10/100	subject-level stratified subsets	speech SSL、audio FM、Mantis、classical	中到高	Figure 7	foundation readiness	小数据集改 k-shot。
Dataset shortcut diagnosis	dataset_id、metadata、embedding	all encoders + metadata-only	低到中	Figure 8	合并数据集科学化	若 metadata 少，至少做 dataset-ID embedding probe。
Robustness stress test	corrupted test sets	4--6 代表模型	中	Figure 12	deployment shift	扰动强度预先定义，避免 cherry-pick。
Subgroup fairness + reportability	age/sex/language/device/task metadata	P0 代表模型	低	Figure 11	负责任 AI	元数据不足时主打 reportability。
Cascaded audio/text comparison	transcripts/captions	Whisper+LLM、Qwen2-Audio/SALMONN	中；API 成本可控	Table/Figure	分离 acoustic vs linguistic evidence	API 不稳定则放 appendix 或只跑 open-source。
Error taxonomy	抽样错误 + 人工标注	P0/P1 代表模型	低	Figure 14	从结果到 failure analysis	需要清楚 annotation guideline。

P2：锦上添花

项目	数据准备	模型	计算资源	输出图表	贡献	风险与替代方案
Bias mitigation audit	subgroup + domain labels	GroupDRO、class reweighting、domain adversarial	中	appendix table	呼应 FairMedFM	不要声称解决 fairness。
External hidden-like holdout	新公开数据集或保留部分 labels	top models	中	external test table	强化 benchmark 可信度	若无新数据，使用 leave-one-source-out。
Online leaderboard demo	evaluator + web page	无	低	screenshot	社区影响力	提交时至少有 static leaderboard。
Model cards for baselines	每个模型训练配置	无	低	appendix	reproducibility	可半自动生成。
Clinical deployment readiness score	多指标合成	P0/P1	低	appendix	方便传播	主文必须强调 scalar 只是辅助，不替代多维 scorecard。

九、改进后论文骨架

1. 最终推荐题目

SpeechHealth-Eval: Claim-Aware Evaluation of Generalization, Reliability, and Open-Set Recognition in Speech-Based Disease Assessment

比原题更强的地方是 "Claim-Aware"。它直接告诉 E&D 评审：本文研究的是 什么评测支持什么科学结论。

备选：

SpeechHealth-Eval: A Multi-Axis Benchmark for Reliable and Generalizable Speech Health Models
Beyond Within-Dataset Accuracy: Evaluating Generalization and Reliability in Speech-Based Disease Assessment
SpeechDx-Eval: Auditing Dataset Shift, Calibration, and Open-Set Failure in Speech Health Models

2. 一句话 thesis

Current speech disease models can appear strong under within-dataset evaluation, but their scientific claims often collapse under cross-dataset, cross-disease, open-set, calibration, robustness, fairness, and protocol-sensitivity audits; SpeechHealth-Eval provides a claim-aware evaluation framework and executable benchmark to measure whether speech health models are ready for real deployment.

3. 4 条贡献

Claim-aware evaluation formulation

We reformulate speech-based disease assessment as a set of evaluative claims---within-domain recognition, cross-dataset generalization, cross-disease transfer, open-set rejection, calibration, robustness, fairness, and protocol stability---rather than a single disease classification task.
SpeechHealth-Eval benchmark artifact

We build an executable benchmark over 27 public speech/clinical audio health datasets with dataset registry, license/access table, disease/modality ontology, claim boundaries, fixed split manifests, preprocessing pipeline, Croissant metadata, Responsible AI fields, and deterministic evaluation harness.
Unified model usage and adaptation matrix

We evaluate handcrafted acoustic models, spectrogram neural models, speech SSL models, audio foundation models, time-series models, and audio-language/cascaded systems under standardized frozen probing, low-resource adaptation, PEFT, full fine-tuning, and transcript/caption-cascade protocols.
Evaluation audit and failure analysis

We show that within-dataset scores can overestimate deployment readiness, model rankings can reverse under protocol changes, dataset shortcuts are prevalent, open-set rejection and calibration remain weak, and subgroup/fairness conclusions are limited by metadata completeness.

4. Section 结构

1. Introduction

核心内容：

speech health 的潜力；
现有 SDD 评测碎片化；
within-dataset accuracy 的误导性；
为什么未来 speech health foundation model 需要 claim-aware evaluation；
SpeechHealth-Eval 的概览与主要 findings。

建议小节：

Speech-based disease assessment；
Medical audio and speech health datasets；
Speech/audio foundation models；
Benchmark design and evaluation validity；
OOD/open-set/calibration in healthcare；
Fairness and Responsible AI in medical AI。

3. Dataset Registry and Claim-Boundary Ontology

核心内容：

27 数据集统计；
core speech / respiratory audio / auscultation track；
label ontology；
metadata completeness；
license/access；
claim boundaries。

4. SpeechHealth-Eval Task Suite

核心内容：

13 个 task；
each task: claim、split、allowed adaptation、metrics、unsupported claims；
leaderboard definitions。

5. Models and Usage Protocols

核心内容：

model family taxonomy；
frozen probe、linear probe、PEFT、full fine-tune、zero-shot/cascade；
compute budget；
unified segment-pooling interface。

6. Main Results: Multi-Axis Scorecard

核心内容：

within-dataset vs cross-dataset；
low-resource；
open-set；
calibration；
robustness；
fairness reportability；
protocol stability。

7. Evaluation Validity and Failure Analysis

核心内容：

dataset shortcut；
metadata-only baseline；
UMAP/embedding analysis；
error taxonomy；
rank reversal；
transcript-only/audio-only ablation。

8. Benchmark Release and Reproducibility

核心内容：

repo structure；
evaluator；
split manifests；
Croissant/RAI；
data cards/evaluation cards；
leaderboard rules。

9. Limitations, Ethics, and Responsible Use

核心内容：

非临床诊断；
public dataset bias；
privacy/re-identification；
license limitations；
metadata missingness；
leaderboard overfitting；
speech vs cough vs auscultation boundaries。

5. Main paper 应该放哪些实验

主文只放最能支撑 thesis 的实验：

Dataset registry + ontology + license/access table
Standardized within-dataset baseline
Within vs LODO cross-dataset gap
Low-resource adaptation curves
Open-set unknown disease detection
Calibration + selective prediction
Dataset shortcut diagnosis
Protocol sensitivity rank reversal
Metadata completeness + fairness reportability
Error taxonomy summary

6. Appendix 应该放哪些实验

所有模型完整结果表
所有 dataset 的 per-dataset card
所有 label mapping rules
所有 preprocessing configs
robustness 每种 corruption 详细结果
bias mitigation audit
subgroup fairness 完整表
cascaded LLM prompt details
hyperparameter search space
compute resources
Croissant metadata examples
evaluator API examples

7. 摘要里最适合放的 5 个 findings

Within-dataset evaluation substantially overestimates deployment readiness.
Cross-dataset retention is low and varies sharply across disease families.
Model rankings are unstable under split, resampling, sampling-rate, and aggregation choices.
Current models are often poorly calibrated and unreliable under open-set disease shifts.
Dataset shortcuts and metadata incompleteness limit fairness and clinical claims in existing public speech health datasets.

8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"

可以这样回应：

We agree that simply merging public datasets and reporting model scores would not constitute a strong benchmark contribution. This is precisely why SpeechHealth-Eval is designed as a claim-aware evaluation framework rather than a dataset aggregation. The benchmark defines fixed split manifests, modality-aware preprocessing, disease and task ontologies, license-aware access documentation, Croissant/RAI metadata, deterministic evaluators, and multiple leaderboards. More importantly, our experiments evaluate the validity of common scientific claims in speech disease modeling: whether within-dataset scores transfer across datasets, whether models detect unknown diseases, whether high-F1 models are calibrated, whether subgroup conclusions are reportable, and whether evaluation protocols induce rank reversal. The model results are therefore used as probes of evaluation validity, not as a bake-off.

中文核心版本：

我们不是把 27 个数据集拼起来跑模型，而是在研究：哪些评测协议能支持哪些 speech health model 的科学 claim，哪些常见协议会产生误导性结论。 数据集合并只是构造跨数据集、跨疾病、跨模态、跨采集条件 shift 的基础材料；真正贡献是 claim-aware task suite、固定 split、许可与元数据审计、可执行 evaluator、protocol sensitivity audit 和 failure analysis。

最后给你的主线建议

这篇论文最应该主打的不是"我们有最大的 SDD 数据集合"，而是：

SpeechHealth-Eval reveals that the field's current evaluation practice is not sufficient to justify deployment-oriented claims, and provides the standardized tools needed to make those claims testable.

按这个主线写，BenchX、FairMedFM、MMAR 三篇参考论文就不是被动引用，而会变成你论文设计的三根支柱：

BenchX → standardization and revisiting prior conclusions
FairMedFM → multi-axis matrix, utility--fairness--calibration trade-off
MMAR → hierarchical taxonomy, quality pipeline, model capability gap, sanity controls

论文规划框架和实验设计2

文章目录

一、逐篇分析可借鉴点

二、重新优化模型选型：从"多跑模型"改成"按评测 claim 组织模型"

2.1 推荐 model family taxonomy

2.2 P0 / P1 / P2 模型清单

P0：必须跑，保证论文成立

P1：强创新，优先加入

P2：加分项，有时间再做

2.3 如何避免模型太多导致论文失焦

三、重新优化实验设计：NeurIPS E&D 风格实验矩阵

四、SpeechHealth-Eval task taxonomy

4.1 推荐 taxonomy

4.2 Core speech track vs extended clinical audio track

五、Benchmark artifact 设计

5.1 Repo 结构

5.2 必须项 vs 加分项

六、论文图表设计：15 个图表/表格

七、建议新增的 5 个杀伤力创新点

1. Protocol-Stability Leaderboard

2. Cross-Dataset Retention Ratio

3. Claim-Aware Evaluation Cards

4. Dataset Shortcut Score

5. Fairness Reportability Score

八、执行版路线图

P0：必须完成，否则论文不成立

P1：强创新，建议优先做

P2：锦上添花

九、改进后论文骨架

1. 最终推荐题目

2. 一句话 thesis

3. 4 条贡献

4. Section 结构

1. Introduction

2. Related Work

3. Dataset Registry and Claim-Boundary Ontology

4. SpeechHealth-Eval Task Suite

5. Models and Usage Protocols

6. Main Results: Multi-Axis Scorecard

7. Evaluation Validity and Failure Analysis

8. Benchmark Release and Reproducibility

9. Limitations, Ethics, and Responsible Use

5. Main paper 应该放哪些实验

6. Appendix 应该放哪些实验

7. 摘要里最适合放的 5 个 findings

8. Rebuttal 中如何回应"这只是数据集合并和模型结果表"

最后给你的主线建议