ClinEnv：面向Agent的交互式多阶段电子健康记录（EHR）环境

来源： arXiv:2606.02568

链接： https://arxiv.org/html/2606.02568v1

优化日期： 2026-06-01

领域： 临床AI、电子健康记录（EHR）、大型语言模型评估、多智能体系统

📌 概述与核心范式

ClinEnv 是一个交互式基准测试，用于评估大语言模型（LLM）作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为 纵向住院模拟（Longitudinal Inpatient Simulation, LIS）。与传统的静态多项选择题基准不同，ClinEnv模拟了真实临床实践中：

医生逐步收集异构信息
在不确定性下做出顺序且不可逆的决策
提交药物、程序和诊断，并通过EHR时间线进行验证

🚀 核心贡献

自动化案例构建： 将原始EHR admissions 转换为多阶段案例，无需人工标注
交互式多智能体环境： 临床信息在未请求时隐藏；模型必须向四个专用智能体查询后才能提交决策
双重评估框架： 同时评估决策准确性（通过确定性本体匹配）和流程质量（信息覆盖率、成本效率）

📊 基准统计数据与数据源

指标	数值
数据源	MIMIC-IV v3.1 & v2.2
住院数	3,509（1,809名唯一患者）
决策阶段	9,297
真实决策	26,043
决策类型分解	诊断：71.7%
案例跨距	平均每案例2.65阶段；49.8%为长跨距（≥3阶段）

🛠️ 方法论与架构

管线阶段

决策提取： 从出院记录中提取主治级决策（若完整记录不可用，则缝合各部分）
时间锚定： 滑动窗口智能体将每个决策定位到特定的时间线事件
阶段构建与验证： 将时间线分段为有序阶段；跳过常规药物持续
诊断可判定性扫描： 滑动窗口扫描识别最终诊断阶段的证据支持ICD代码

信息智能体（由GPT-5.4-mini驱动）

智能体	角色与视图
Patient	人口统计学、主诉、现病史、既往史（患者语言）
Nurse	生命体征、液体平衡、MAR、床旁观察
Lab	实验室/微生物学结果（语义查询解析）
History	既往出院总结（纵向上下文）

交互模式

直接模式： 模型接收完整阶段上下文；无需查询即可提交决策
交互模式： 从无数据开始；最多60轮；每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数，以隔离推理与格式推断

📐 评估框架与指标

决策准确性

匹配： 匈牙利算法针对每种决策类型（诊断、药物、程序）
药物评分： 动作类型门控（开始/停止/切换/调整）+ ATC层次部分得分
诊断/程序评分： 层次F1（HDF1）基于ICD祖先集

流程质量

信息效率： 奖励精简查询；惩罚冗余查询
实验室成本效率： 将订购测试映射到CMS临床实验室费用时间表；计算浪费比率
药物获取成本： 通过RxNorm → NDC → NADAC定价 + WHO ATC/DDD估计每日成本

🔑 关键公式

math 复制代码

s_{ATC} = \begin{cases}1.0 & \ell \geq |c^*| \\
0.8 & \ell=5 \text{ (化学亚组)} \\
0.6 & \ell=4 \text{ (药理类)} \\
0.3 & \ell=3 \text{ (治疗组)} \\
0.1 & \ell=1 \text{ (解剖组)} \\
0.0 & \text{其他}\end{cases}

math 复制代码

\text{eff} = \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)}

🔍 关键发现与洞察

天花板低： 最强的模型（GPT-5.4）仅达到 0.306 决策F1，表明真实世界临床推理仍有巨大提升空间
诊断 vs. 管理： 模型可靠恢复诊断（F1=0.51）但管理决策表现较差（F1=0.17）。瓶颈在于选择正确的药物身份，而非动作类型
长跨距难度： 性能在第一个管理阶段后急剧下降；准确率在第4阶段跌至 0.03以下
流程-结果解耦： 结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费（4.1%）尽管绝对准确率较低
信息寻求减少浪费： 更高的覆盖率与更低的实验室浪费相关；知道该寻找什么的模型检索相关证据并避免不必要测试
信息访问非瓶颈： 覆盖率在后期阶段保持稳定或上升，但决策准确率崩溃，指向 临床推理 为瓶颈约束

📝 局限性与作用范围

测量与真实临床实践的一致性，而非最佳护理；合理替代方案可能得分不及
评估仅针对住院场景，不涵盖门诊或急诊
成本估算基于公开定价，实际医院成本可能不同

📂 资源链接与下载

资源	链接
arXiv论文	https://arxiv.org/html/2606.02568v1
GitHub（如有）	https://github.com/...
MIMIC-IV数据	https://mimicih.github.io/

📋 实验步骤与脚本资源

实验环境配置

bash 复制代码

# 克隆仓库
git clone https://github.com/ClinEnv/ClinEnv.git
cd ClinEnv

# 创建虚拟环境
conda create -n clinenv python=3.10
conda activate clinenv

# 安装依赖
pip install -r requirements.txt

# 下载数据（如有脚本）
bash scripts/download_data.sh

运行评估

bash 复制代码

# 运行完整评估
python run_evaluation.py --mode full --output results/

# 交互式评估
python run_evaluation.py --mode interactive --max-turns 60 --output results/interactive/

# 直接模式评估
python run_evaluation.py --mode direct --output results/direct/

资源下载脚本

bash 复制代码

# 下载MIMIC-IV数据
bash scripts/setup_mimic.sh

# 下载预训练模型与权重
bash scripts/download_models.sh

# 验证环境
python scripts/validate_setup.py

🔍 专家总结

ClinEnv 通过引入纵向住院模拟范式，填补了临床推理评估领域的空白。其核心价值在于：

真实性： 基于真实住院数据，涵盖药物、诊断和程序决策
交互性： 模拟医生逐步收集信息的真实过程
双重评估： 不仅评估决策结果，还评估决策流程的效率和质量
长跨距挑战： 揭示了模型在长期决策中的性能衰减问题

该基准为评估LLM在临床环境中的表现提供了重要工具，特别适用于评估模型在不确定性下做出顺序决策的能力。