微软发布突破性医疗AI系统

微软首席执行官Satya Nadella在社交平台宣布，微软推出了突破性医疗AI系统MAI-DxO。该系统技术创新在于模型无关设计，可适配不同语言模型并提升其诊断性能，还能模拟真实医生流程，诊断准确率远超专业医生。

微软测试显示，与21名10年以上经验医生对比，人类医生在《新英格兰医学杂志》56例测试集上平均准确率仅19.9%，而MAI-DxO在无预算配置下，用OpenAI的o3模型准确率达81.9%，集成模式更高达85.5%，成本也大幅降低。此外，微软还发布了医疗序贯诊断基准SDBench。

医学诊断是医生需不断收集信息、提出并验证假设、逐步细化范围的复杂过程。临床中，医生需根据患者症状体征提问，了解病史等信息，结合检查结果缩小疾病范围，最终确诊。MAI-DxO则通过模拟一组不同角色的虚拟医生共同诊断，在准确性和成本效益上取得显著突破。

MAI-DxO简单介绍

MAI-DxO 框架借鉴真实医疗团队协作模式，让不同"医生"发挥专业优势，通过协调机制避免个体偏差与过度检查。其中，Dr. Hypothesis 维护按概率排序的鉴别诊断列表，以贝叶斯方式更新疾病概率，为诊断提供方向；Dr. Test-Chooser 每轮选最多三个能区分领先诊断假设的检查，提高诊断效率、降低成本；Dr. Challenger 以监督员身份识别锚定偏差，提出证伪当前诊断的检查建议，打破思维定式；Dr. Stewardship 推行成本意识医疗服务，倡导等效便宜检查替代方案，否决低收益昂贵检查；Dr. Checklist 负责幕后质量控制，确保检查名称有效与团队推理一致，保障系统稳定可靠。

为评估性能，微软将 MAI-DxO 与专业人类医生综合对比。在诊断准确性这一关键指标上，参与测试的 21 名医生平均准确率仅 19.9%。而 MAI-DxO 在不同配置下远超人类医生，无预算配置时诊断准确率达 81.9%，集成配置更是提升至 85.5%。

在成本效益方面，人类医生测试中平均每个案例成本 2963 美元，平均每个案例花费 11.8 分钟，提出 6.6 个问题并请求 7.2 项检查。MAI-DxO 控制成本表现出色，无预算配置平均检查成本 4735 美元，预算内配置成本进一步降至 2396 美元，且保持较高诊断准确率。

MAI-DxO五大集成模式

为适配不同医疗场景以控制成本、诊断效率与准确性，MAI-DxO 推出五种集成模式。这些模式针对不同医疗需求和条件，在诊断方式、成本把控及准确性追求上各有侧重，为多样化的医疗情境提供了灵活且适配的解决方案。

Instant Answer 模式依赖初始病例摘要快速诊断，灵感源于紧急场景的快速响应需求，如偏远地区或急诊。它直接调用语言模型处理信息，诊断快、成本近零，但难处理复杂病例，适用于对时间要求高、准确性要求低的场景。Question Only 模式将诊断限于提问，模拟初级诊疗，强调病史采集，通过层次化提问策略挖掘信息，成本低、无创伤，适合初步筛查，但面对需客观检查的疾病诊断受限，在基层医疗和健康咨询有价值。Budgeted 模式引入动态预算控制，通过独立协调模型跟踪成本，将检查请求转换为 CPT 代码估算成本，接近预算时触发预警，实现对成本的主动管理。

No Budget 模式是完整形态，无成本跟踪和预算限制，以最大化诊断准确性为目标，发挥虚拟医生团队优势，通过多种机制深度诊断复杂病例，用强化学习优化协作流程，能处理疑难病例，实现高准确性，但成本较高，适用于三甲医院专科会诊或罕见病诊断中心。Ensemble 模式模拟多个医生团队并行工作，每个团队独立运行 No Budget 模式，最后聚合诊断结果，其核心是构建多样化团队，结果聚合时考虑一致性、证据强度和推理合理性，降低偏差和错误，进一步提升诊断准确性。

序贯诊断基准SDBench

SDBench 是微软 AI 团队打造的交互式评估框架，它将《新英格兰医学杂志》临床病理会议（CPC）系列里的 304 个具挑战性的诊断案例，转化为逐步诊断的交互场景。这些案例涵盖常见与罕见疾病，表现多样，为评估人类医生或 AI 的序贯诊断能力提供了丰富真实素材。

在 SDBench 中，诊断从简短病例摘要开启，诊断主体依此决定询问问题、要求检查或做出最终诊断，此过程迭代进行。"守门人"智能体模型拥有完整病例文件，但仅根据诊断主体明确查询提供临床发现信息，模糊查询会礼貌拒绝，模拟了真实临床中医生获取信息的过程。为增强评估真实性，引入"法官"智能体评估诊断准确性。它不单看字面描述，而是从核心疾病实体等多个维度综合评估，以临床实质为准，避免因术语差异误判。

除诊断准确性，SDBench 将诊断成本作为重要评估指标。现实中医生选检查手段要考虑成本效益，不能随意进行昂贵检查。SDBench 为诊断主体与患者互动设定固定成本，对检查请求通过查找系统转为标准化代码，依据美国大型卫生系统 2023 年定价表确定成本。此方式促使诊断主体注重成本控制，也为不同主体成本效益比较提供标准化参考。