微软发布突破性医疗AI系统

微软首席执行官Satya Nadella在社交平台宣布,微软推出了突破性医疗AI系统MAI-DxO。该系统技术创新在于模型无关设计,可适配不同语言模型并提升其诊断性能,还能模拟真实医生流程,诊断准确率远超专业医生。

微软测试显示,与21名10年以上经验医生对比,人类医生在《新英格兰医学杂志》56例测试集上平均准确率仅19.9%,而MAI-DxO在无预算配置下,用OpenAI的o3模型准确率达81.9%,集成模式更高达85.5%,成本也大幅降低。此外,微软还发布了医疗序贯诊断基准SDBench。

医学诊断是医生需不断收集信息、提出并验证假设、逐步细化范围的复杂过程。临床中,医生需根据患者症状体征提问,了解病史等信息,结合检查结果缩小疾病范围,最终确诊。MAI-DxO则通过模拟一组不同角色的虚拟医生共同诊断,在准确性和成本效益上取得显著突破。

MAI-DxO简单介绍

MAI-DxO 框架借鉴真实医疗团队协作模式,让不同"医生"发挥专业优势,通过协调机制避免个体偏差与过度检查。其中,Dr. Hypothesis 维护按概率排序的鉴别诊断列表,以贝叶斯方式更新疾病概率,为诊断提供方向;Dr. Test-Chooser 每轮选最多三个能区分领先诊断假设的检查,提高诊断效率、降低成本;Dr. Challenger 以监督员身份识别锚定偏差,提出证伪当前诊断的检查建议,打破思维定式;Dr. Stewardship 推行成本意识医疗服务,倡导等效便宜检查替代方案,否决低收益昂贵检查;Dr. Checklist 负责幕后质量控制,确保检查名称有效与团队推理一致,保障系统稳定可靠。

为评估性能,微软将 MAI-DxO 与专业人类医生综合对比。在诊断准确性这一关键指标上,参与测试的 21 名医生平均准确率仅 19.9%。而 MAI-DxO 在不同配置下远超人类医生,无预算配置时诊断准确率达 81.9%,集成配置更是提升至 85.5%。

在成本效益方面,人类医生测试中平均每个案例成本 2963 美元,平均每个案例花费 11.8 分钟,提出 6.6 个问题并请求 7.2 项检查。MAI-DxO 控制成本表现出色,无预算配置平均检查成本 4735 美元,预算内配置成本进一步降至 2396 美元,且保持较高诊断准确率。

MAI-DxO五大集成模式

为适配不同医疗场景以控制成本、诊断效率与准确性,MAI-DxO 推出五种集成模式。这些模式针对不同医疗需求和条件,在诊断方式、成本把控及准确性追求上各有侧重,为多样化的医疗情境提供了灵活且适配的解决方案。

Instant Answer 模式依赖初始病例摘要快速诊断,灵感源于紧急场景的快速响应需求,如偏远地区或急诊。它直接调用语言模型处理信息,诊断快、成本近零,但难处理复杂病例,适用于对时间要求高、准确性要求低的场景。Question Only 模式将诊断限于提问,模拟初级诊疗,强调病史采集,通过层次化提问策略挖掘信息,成本低、无创伤,适合初步筛查,但面对需客观检查的疾病诊断受限,在基层医疗和健康咨询有价值。Budgeted 模式引入动态预算控制,通过独立协调模型跟踪成本,将检查请求转换为 CPT 代码估算成本,接近预算时触发预警,实现对成本的主动管理。

No Budget 模式是完整形态,无成本跟踪和预算限制,以最大化诊断准确性为目标,发挥虚拟医生团队优势,通过多种机制深度诊断复杂病例,用强化学习优化协作流程,能处理疑难病例,实现高准确性,但成本较高,适用于三甲医院专科会诊或罕见病诊断中心。Ensemble 模式模拟多个医生团队并行工作,每个团队独立运行 No Budget 模式,最后聚合诊断结果,其核心是构建多样化团队,结果聚合时考虑一致性、证据强度和推理合理性,降低偏差和错误,进一步提升诊断准确性。

序贯诊断基准SDBench

SDBench 是微软 AI 团队打造的交互式评估框架,它将《新英格兰医学杂志》临床病理会议(CPC)系列里的 304 个具挑战性的诊断案例,转化为逐步诊断的交互场景。这些案例涵盖常见与罕见疾病,表现多样,为评估人类医生或 AI 的序贯诊断能力提供了丰富真实素材。

在 SDBench 中,诊断从简短病例摘要开启,诊断主体依此决定询问问题、要求检查或做出最终诊断,此过程迭代进行。"守门人"智能体模型拥有完整病例文件,但仅根据诊断主体明确查询提供临床发现信息,模糊查询会礼貌拒绝,模拟了真实临床中医生获取信息的过程。为增强评估真实性,引入"法官"智能体评估诊断准确性。它不单看字面描述,而是从核心疾病实体等多个维度综合评估,以临床实质为准,避免因术语差异误判。

除诊断准确性,SDBench 将诊断成本作为重要评估指标。现实中医生选检查手段要考虑成本效益,不能随意进行昂贵检查。SDBench 为诊断主体与患者互动设定固定成本,对检查请求通过查找系统转为标准化代码,依据美国大型卫生系统 2023 年定价表确定成本。此方式促使诊断主体注重成本控制,也为不同主体成本效益比较提供标准化参考。

相关推荐
春日见8 分钟前
RL精华知识
人工智能·机器学习
东方佑30 分钟前
波动力学语言模型(Wave Dynamics Language Model, WDLM)
人工智能·语言模型·自然语言处理
John_ToDebug38 分钟前
CLAUDE.md 与 Skills 的区别:一张表彻底分清
人工智能·经验分享·ai
程序员cxuan39 分钟前
我花了两天时间,终于把 Codex 额度掉太快的问题整明白了!!
人工智能·后端·程序员
IT_陈寒40 分钟前
Vue这个动态响应坑把我整不会了
前端·人工智能·后端
feasibility.1 小时前
ROS2+Gazebo+VLM服务:纯仿真环境下的具身智能闭环系统| 大脑-小脑分离控制
人工智能·机器人·ros·仿真·具身智能·vla·vlm
lqqjuly1 小时前
自动驾驶仿真平台:理论、架构与实践
人工智能·机器学习·自动驾驶
“码”力全开1 小时前
解耦异构算力与多协议接入:基于Docker与源码交付的开源企业级GB28181/RTSP边缘计算AI视频管理平台架构深度解析
人工智能·docker·开源
J2虾虾1 小时前
Spring AI Alibaba文档
java·人工智能·spring
Mr数据杨1 小时前
【CanMV K210】传感器实验 U 型光电传感器遮挡检测与 LED 提示
人工智能·硬件开发·canmv k210