ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境

ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境

来源: arXiv:2606.02568

链接: https://arxiv.org/html/2606.02568v1

优化日期: 2026-06-01

领域: 临床AI、电子健康记录(EHR)、大型语言模型评估、多智能体系统


📌 概述与核心范式

ClinEnv 是一个交互式基准测试,用于评估大语言模型(LLM)作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为 纵向住院模拟(Longitudinal Inpatient Simulation, LIS)。与传统的静态多项选择题基准不同,ClinEnv模拟了真实临床实践中:

  • 医生逐步收集异构信息
  • 在不确定性下做出顺序且不可逆的决策
  • 提交药物、程序和诊断,并通过EHR时间线进行验证

🚀 核心贡献

  1. 自动化案例构建: 将原始EHR admissions 转换为多阶段案例,无需人工标注
  2. 交互式多智能体环境: 临床信息在未请求时隐藏;模型必须向四个专用智能体查询后才能提交决策
  3. 双重评估框架: 同时评估决策准确性(通过确定性本体匹配)和流程质量(信息覆盖率、成本效率)

📊 基准统计数据与数据源

指标 数值
数据源 MIMIC-IV v3.1 & v2.2
住院数 3,509(1,809名唯一患者)
决策阶段 9,297
真实决策 26,043
决策类型分解 诊断:71.7%
案例跨距 平均每案例2.65阶段;49.8%为长跨距(≥3阶段)

🛠️ 方法论与架构

管线阶段

  1. 决策提取: 从出院记录中提取主治级决策(若完整记录不可用,则缝合各部分)
  2. 时间锚定: 滑动窗口智能体将每个决策定位到特定的时间线事件
  3. 阶段构建与验证: 将时间线分段为有序阶段;跳过常规药物持续
  4. 诊断可判定性扫描: 滑动窗口扫描识别最终诊断阶段的证据支持ICD代码

信息智能体(由GPT-5.4-mini驱动)

智能体 角色与视图
Patient 人口统计学、主诉、现病史、既往史(患者语言)
Nurse 生命体征、液体平衡、MAR、床旁观察
Lab 实验室/微生物学结果(语义查询解析)
History 既往出院总结(纵向上下文)

交互模式

  • 直接模式: 模型接收完整阶段上下文;无需查询即可提交决策
  • 交互模式: 从无数据开始;最多60轮;每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数,以隔离推理与格式推断

📐 评估框架与指标

决策准确性

  • 匹配: 匈牙利算法针对每种决策类型(诊断、药物、程序)
  • 药物评分: 动作类型门控(开始/停止/切换/调整)+ ATC层次部分得分
  • 诊断/程序评分: 层次F1(HDF1)基于ICD祖先集

流程质量

  • 信息效率: 奖励精简查询;惩罚冗余查询
  • 实验室成本效率: 将订购测试映射到CMS临床实验室费用时间表;计算浪费比率
  • 药物获取成本: 通过RxNorm → NDC → NADAC定价 + WHO ATC/DDD估计每日成本

🔑 关键公式

math 复制代码
s_{ATC} = \begin{cases}1.0 & \ell \geq |c^*| \\
0.8 & \ell=5 \text{ (化学亚组)} \\
0.6 & \ell=4 \text{ (药理类)} \\
0.3 & \ell=3 \text{ (治疗组)} \\
0.1 & \ell=1 \text{ (解剖组)} \\
0.0 & \text{其他}\end{cases}
math 复制代码
\text{eff} = \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)}

🔍 关键发现与洞察

  • 天花板低: 最强的模型(GPT-5.4)仅达到 0.306 决策F1,表明真实世界临床推理仍有巨大提升空间
  • 诊断 vs. 管理: 模型可靠恢复诊断(F1=0.51)但管理决策表现较差(F1=0.17)。瓶颈在于选择正确的药物身份,而非动作类型
  • 长跨距难度: 性能在第一个管理阶段后急剧下降;准确率在第4阶段跌至 0.03以下
  • 流程-结果解耦: 结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费(4.1%)尽管绝对准确率较低
  • 信息寻求减少浪费: 更高的覆盖率与更低的实验室浪费相关;知道该寻找什么的模型检索相关证据并避免不必要测试
  • 信息访问非瓶颈: 覆盖率在后期阶段保持稳定或上升,但决策准确率崩溃,指向 临床推理 为瓶颈约束

📝 局限性与作用范围

  • 测量与真实临床实践的一致性,而非最佳护理;合理替代方案可能得分不及
  • 评估仅针对住院场景,不涵盖门诊或急诊
  • 成本估算基于公开定价,实际医院成本可能不同

📂 资源链接与下载

资源 链接
arXiv论文 https://arxiv.org/html/2606.02568v1
GitHub(如有) https://github.com/...
MIMIC-IV数据 https://mimicih.github.io/

📋 实验步骤与脚本资源

实验环境配置

bash 复制代码
# 克隆仓库
git clone https://github.com/ClinEnv/ClinEnv.git
cd ClinEnv

# 创建虚拟环境
conda create -n clinenv python=3.10
conda activate clinenv

# 安装依赖
pip install -r requirements.txt

# 下载数据(如有脚本)
bash scripts/download_data.sh

运行评估

bash 复制代码
# 运行完整评估
python run_evaluation.py --mode full --output results/

# 交互式评估
python run_evaluation.py --mode interactive --max-turns 60 --output results/interactive/

# 直接模式评估
python run_evaluation.py --mode direct --output results/direct/

资源下载脚本

bash 复制代码
# 下载MIMIC-IV数据
bash scripts/setup_mimic.sh

# 下载预训练模型与权重
bash scripts/download_models.sh

# 验证环境
python scripts/validate_setup.py

🔍 专家总结

ClinEnv 通过引入纵向住院模拟范式,填补了临床推理评估领域的空白。其核心价值在于:

  1. 真实性: 基于真实住院数据,涵盖药物、诊断和程序决策
  2. 交互性: 模拟医生逐步收集信息的真实过程
  3. 双重评估: 不仅评估决策结果,还评估决策流程的效率和质量
  4. 长跨距挑战: 揭示了模型在长期决策中的性能衰减问题

该基准为评估LLM在临床环境中的表现提供了重要工具,特别适用于评估模型在不确定性下做出顺序决策的能力。

相关推荐
allein_STR1 小时前
【Transformer拆解】-4. 残差连接(Residual Connection)与层归一化(LayerNorm)
人工智能·深度学习·transformer
Mike_6661 小时前
RealESRGAN超分环境配置
人工智能·realesrgan
sali-tec1 小时前
C# 基于OpenCv的视觉工作流-章81-弯脚检测
图像处理·人工智能·opencv·算法·计算机视觉
ar01231 小时前
远程协助加持AR:构建工业智能化协同新格局
人工智能·ar
Caesar12241 小时前
大模型 + UI 自动化踩坑实录:从 Midscene 到向量库 / MySQL 混合知识库
人工智能
昵称好难啊1 小时前
4.OpenClaw源码解析_路由的概念
人工智能·算法
Coder小相1 小时前
LangChain 1.0 第七篇 - Pydantic结构化输出
人工智能·agent·ai编程
无心水1 小时前
【Harness:落地实战】16、从“只会说”到“能干活”:OpenClaw落地,手动Harness的架构与实现深度解析
人工智能·架构·设计规范·openclaw·养龙虾·hermes·honcho
jkyy20141 小时前
AI营养师:全周期膳食智能陪伴,构建机构营养服务差异化壁垒
大数据·人工智能·健康医疗