ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境
来源: arXiv:2606.02568
链接: https://arxiv.org/html/2606.02568v1
优化日期: 2026-06-01
领域: 临床AI、电子健康记录(EHR)、大型语言模型评估、多智能体系统
📌 概述与核心范式
ClinEnv 是一个交互式基准测试,用于评估大语言模型(LLM)作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为 纵向住院模拟(Longitudinal Inpatient Simulation, LIS)。与传统的静态多项选择题基准不同,ClinEnv模拟了真实临床实践中:
- 医生逐步收集异构信息
- 在不确定性下做出顺序且不可逆的决策
- 提交药物、程序和诊断,并通过EHR时间线进行验证
🚀 核心贡献
- 自动化案例构建: 将原始EHR admissions 转换为多阶段案例,无需人工标注
- 交互式多智能体环境: 临床信息在未请求时隐藏;模型必须向四个专用智能体查询后才能提交决策
- 双重评估框架: 同时评估决策准确性(通过确定性本体匹配)和流程质量(信息覆盖率、成本效率)
📊 基准统计数据与数据源
| 指标 | 数值 |
|---|---|
| 数据源 | MIMIC-IV v3.1 & v2.2 |
| 住院数 | 3,509(1,809名唯一患者) |
| 决策阶段 | 9,297 |
| 真实决策 | 26,043 |
| 决策类型分解 | 诊断:71.7% |
| 案例跨距 | 平均每案例2.65阶段;49.8%为长跨距(≥3阶段) |
🛠️ 方法论与架构
管线阶段
- 决策提取: 从出院记录中提取主治级决策(若完整记录不可用,则缝合各部分)
- 时间锚定: 滑动窗口智能体将每个决策定位到特定的时间线事件
- 阶段构建与验证: 将时间线分段为有序阶段;跳过常规药物持续
- 诊断可判定性扫描: 滑动窗口扫描识别最终诊断阶段的证据支持ICD代码
信息智能体(由GPT-5.4-mini驱动)
| 智能体 | 角色与视图 |
|---|---|
| Patient | 人口统计学、主诉、现病史、既往史(患者语言) |
| Nurse | 生命体征、液体平衡、MAR、床旁观察 |
| Lab | 实验室/微生物学结果(语义查询解析) |
| History | 既往出院总结(纵向上下文) |
交互模式
- 直接模式: 模型接收完整阶段上下文;无需查询即可提交决策
- 交互模式: 从无数据开始;最多60轮;每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数,以隔离推理与格式推断
📐 评估框架与指标
决策准确性
- 匹配: 匈牙利算法针对每种决策类型(诊断、药物、程序)
- 药物评分: 动作类型门控(开始/停止/切换/调整)+ ATC层次部分得分
- 诊断/程序评分: 层次F1(HDF1)基于ICD祖先集
流程质量
- 信息效率: 奖励精简查询;惩罚冗余查询
- 实验室成本效率: 将订购测试映射到CMS临床实验室费用时间表;计算浪费比率
- 药物获取成本: 通过RxNorm → NDC → NADAC定价 + WHO ATC/DDD估计每日成本
🔑 关键公式
math
s_{ATC} = \begin{cases}1.0 & \ell \geq |c^*| \\
0.8 & \ell=5 \text{ (化学亚组)} \\
0.6 & \ell=4 \text{ (药理类)} \\
0.3 & \ell=3 \text{ (治疗组)} \\
0.1 & \ell=1 \text{ (解剖组)} \\
0.0 & \text{其他}\end{cases}
math
\text{eff} = \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)}
🔍 关键发现与洞察
- 天花板低: 最强的模型(GPT-5.4)仅达到 0.306 决策F1,表明真实世界临床推理仍有巨大提升空间
- 诊断 vs. 管理: 模型可靠恢复诊断(F1=0.51)但管理决策表现较差(F1=0.17)。瓶颈在于选择正确的药物身份,而非动作类型
- 长跨距难度: 性能在第一个管理阶段后急剧下降;准确率在第4阶段跌至 0.03以下
- 流程-结果解耦: 结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费(4.1%)尽管绝对准确率较低
- 信息寻求减少浪费: 更高的覆盖率与更低的实验室浪费相关;知道该寻找什么的模型检索相关证据并避免不必要测试
- 信息访问非瓶颈: 覆盖率在后期阶段保持稳定或上升,但决策准确率崩溃,指向 临床推理 为瓶颈约束
📝 局限性与作用范围
- 测量与真实临床实践的一致性,而非最佳护理;合理替代方案可能得分不及
- 评估仅针对住院场景,不涵盖门诊或急诊
- 成本估算基于公开定价,实际医院成本可能不同
📂 资源链接与下载
| 资源 | 链接 |
|---|---|
| arXiv论文 | https://arxiv.org/html/2606.02568v1 |
| GitHub(如有) | https://github.com/... |
| MIMIC-IV数据 | https://mimicih.github.io/ |
📋 实验步骤与脚本资源
实验环境配置
bash
# 克隆仓库
git clone https://github.com/ClinEnv/ClinEnv.git
cd ClinEnv
# 创建虚拟环境
conda create -n clinenv python=3.10
conda activate clinenv
# 安装依赖
pip install -r requirements.txt
# 下载数据(如有脚本)
bash scripts/download_data.sh
运行评估
bash
# 运行完整评估
python run_evaluation.py --mode full --output results/
# 交互式评估
python run_evaluation.py --mode interactive --max-turns 60 --output results/interactive/
# 直接模式评估
python run_evaluation.py --mode direct --output results/direct/
资源下载脚本
bash
# 下载MIMIC-IV数据
bash scripts/setup_mimic.sh
# 下载预训练模型与权重
bash scripts/download_models.sh
# 验证环境
python scripts/validate_setup.py
🔍 专家总结
ClinEnv 通过引入纵向住院模拟范式,填补了临床推理评估领域的空白。其核心价值在于:
- 真实性: 基于真实住院数据,涵盖药物、诊断和程序决策
- 交互性: 模拟医生逐步收集信息的真实过程
- 双重评估: 不仅评估决策结果,还评估决策流程的效率和质量
- 长跨距挑战: 揭示了模型在长期决策中的性能衰减问题
该基准为评估LLM在临床环境中的表现提供了重要工具,特别适用于评估模型在不确定性下做出顺序决策的能力。