Nature | 一场人工智能革命正在医学领域酝酿，它会是什么样子？

10 月 24 日，《Nature》发布了一篇题为《An AI revolution is brewing in medicine. What will it look like?》的新闻专稿。

文章指出 AI 模型应用于医疗的当前局限性，新兴的通才模型可以克服第一代机器学习工具在临床使用中的一些局限性。为了解决医学人工智能工具的一些局限性，研究人员一直在探索具有更广泛功能的医学人工智能。并介绍了一些大型科技公司在医疗成像的基础模型。

Jordan Perchik 在美国阿拉巴马大学伯明翰分校（The University of Alabama at Birmingham，UAB ）开始了他的放射学住院医师实习生涯，当时正值他所说的该领域的「人工智能恐慌」高峰期。

那时，计算机科学家 Geoffrey Hinton 宣称，人们应该停止放射科医生培训，因为机器学习工具很快就会取代他们。被称为 AI 教父的 Hinton 预测，这些系统很快将能够比人类更好地读取和解释医学扫描和 X 射线。随后放射学项目的申请量大幅下降。Perchik 说:「人们担心，他们即将完成住院医师实习却找不到工作。」

Hinton 说得有道理。基于人工智能的工具越来越多地成为医疗保健的一部分；超过 500 种已获得 FDA 授权用于医药。大多数与医学成像有关------用于增强图像、测量异常或标记测试结果以进行后续检查。

但即使在 Hinton 的预测七年后，放射科医生的需求仍然非常旺盛。大多数临床医生似乎对这些技术的性能并不感兴趣。

调查显示，尽管许多医生都知道临床人工智能工具，但只有一小部分（10% 到 30% 之间）真正使用过它们。人们的态度从谨慎乐观到完全缺乏信任不等。「一些放射科医生怀疑人工智能应用的质量和安全性，」荷兰乌得勒支大学医学中心医疗创新实施专家 Charisma Hehakaya 说。2019 年，她所在的团队采访了荷兰的二十多位临床医生和医院管理人员，询问他们对人工智能工具的看法。她说，由于这种怀疑，最新的方法有时会被放弃。

即使人工智能工具实现了其设计目的，仍不清楚这是否会转化为对患者更好的护理。「这需要更强有力的分析，」Perchik 说。

但人们对一种有时被称为「通用医疗人工智能」的方法确实越来越兴奋。这些是在海量数据集上训练的模型，很像为 ChatGPT 和其他人工智能聊天机器人提供支持的模型。在摄取大量医学图像和文本后，这些模型可以适应许多任务。虽然目前批准的工具具有特定功能，例如在计算机断层扫描 (CT) 胸部扫描中检测肺结节，但这些通才模型的作用更像是医生，评估扫描中的每个异常并将其同化为类似诊断的东西。

通才医疗人工智能（GMAI）模型管道概述。（来源：Nature）

尽管人工智能爱好者现在倾向于回避有关机器取代医生的大胆主张，但许多人表示，这些模型可以克服医疗人工智能当前的一些局限性，并且有一天它们可能在某些情况下超越医生。「对我来说，真正的目标是让人工智能帮助我们做人类不太擅长的事情，」位于阿拉巴马州伯明翰的美国放射学数据科学研究所首席医疗官、放射科医生 Bibb Allen 说道。

但在这些最新工具用于现实世界的临床护理之前，还有很长的路要走。

目前的限制

医学人工智能工具可以为从业者提供支持，例如快速进行扫描并标记医生可能想要立即查看的潜在问题。此类工具有时效果很好。Perchik 记得有一次，人工智能分诊为出现呼吸急促的人标记了胸部 CT 扫描。当时是凌晨 3 点，正值夜班。他优先考虑了扫描，并同意人工智能的评估，即扫描结果显示肺栓塞，这是一种可能致命的疾病，需要立即治疗。如果没有标记，扫描可能要到当天晚些时候才会被评估。

但如果人工智能犯了错误，可能会产生相反的效果。Perchik 说，他最近发现了一例人工智能未能标记的肺栓塞病例。他决定采取额外的审查步骤，这证实了他的评估，但减慢了他的工作速度。「如果我决定相信人工智能并继续前进，那可能就不会被诊断出来。」

斯坦福大学医学和影像人工智能中心主任、放射科医生 Curtis Langlotz 表示，许多已获得批准的设备不一定符合医生的需求。早期的人工智能医疗工具是根据影像数据的可用性而开发的，因此一些应用程序是针对常见且容易发现的事物构建的。Langlotz 说，「我不需要帮助检测肺炎」或骨折。即便如此，仍有多种工具可以帮助医生进行这些诊断。

另一个问题是，这些工具往往专注于特定任务，而不是全面解释医学检查------观察图像中可能相关的所有内容，考虑到以前的结果和人的临床病史。哈佛医学院从事生物医学人工智能研究的计算机科学家 Pranav Rajpurkar 表示：「虽然专注于检测几种疾病有一定价值，但它并不能反映放射科医生的真实认知工作。」

伦敦 Google Health 的临床研究科学家 Alan Karthikesalingam 表示，解决方案通常是添加更多人工智能驱动的工具，但这也给医疗保健带来了挑战。考虑一个人进行常规乳房 X 光检查。技术人员可能会得到人工智能工具的帮助来进行乳腺癌筛查。如果发现异常，同一个人可能需要进行磁共振成像（MRI）扫描来确认诊断，为此可能需要一个单独的人工智能设备。如果诊断得到证实，病变将通过手术切除，并且可能还有另一个人工智能系统来协助病理学。

「如果你将其扩展到卫生系统的水平，你可以开始看到如何对设备本身做出大量选择，以及如何集成它们、购买它们、监控它们、部署它们，」他说。「它很快就会成为一种 IT soup。」

英国伯明翰大学研究健康人工智能负责任创新的临床研究员 Xiaoxuan Liu 表示，许多医院没有意识到监控人工智能性能和安全性所面临的挑战。她和她的同事发现了数千项医学影像研究，将深度学习模型的诊断性能与医疗保健专业人员的诊断性能进行了比较。对于该团队评估诊断准确性的 69 项研究，主要发现是大多数模型并未使用真正独立于用于训练模型的信息的数据集进行测试。这意味着这些研究可能高估了模型的性能。

纳入 meta 分析的所有研究的分层 ROC 曲线（25 项研究）。（来源：Lancet Digit Health）

「现在，在该领域，人们都知道必须进行外部验证，」Liu 说。但是，她补充道，「世界上只有少数机构非常清楚这一点」。如果不测试模型的性能，特别是在使用模型的环境中，就不可能知道这些工具是否真正有帮助。

坚实的基础

为了解决医学人工智能工具的一些局限性，研究人员一直在探索具有更广泛功能的医学人工智能。他们受到革命性大型语言模型的启发，例如 ChatGPT 背后的模型。

这些是一些科学家所谓的基础模型的例子。该术语由斯坦福大学的科学家于 2021 年创造，描述了使用一种称为自监督学习的方法在广泛的数据集（包括图像、文本和其他数据）上训练的模型。它们也称为基础模型或预训练模型，它们构成了以后可以适应执行不同任务的基础。

医院已经使用的大多数医疗人工智能设备都是使用监督学习开发的。例如，用这种方法训练模型来识别肺炎，需要专家分析大量胸部 X 光片并将其标记为「肺炎」或「非肺炎」，以教会系统识别与疾病相关的模式。

基础模型不需要对大量图像进行注释，这是一个昂贵且耗时的过程。例如，对于 ChatGPT，使用大量文本来训练语言模型，该模型通过预测句子中的下一个单词来进行学习。同样，伦敦 Moorfields 眼科医院的眼科医生 Pearse Keane 和他的同事开发了一个医学基础模型，使用 160 万张视网膜照片和扫描来学习如何预测图像中缺失的部分应该是什么样子。在模型在预训练过程中了解了视网膜的所有特征后，研究人员引入了数百张标记图像，使其能够了解与视力相关的特定情况，例如糖尿病视网膜病变和青光眼。该系统在检测这些眼部疾病以及预测可通过眼睛血管微小变化检测到的全身性疾病（例如心脏病和帕金森病）方面比以前的模型更好。该模型尚未在临床环境中进行测试。

眼部诊断。

Keane 说，基础模型特别适合眼科，因为几乎眼睛的每个部分都可以高分辨率成像。这些图像的巨大数据集可用于训练此类模型。「人工智能将改变医疗保健，」他说。「眼科可以成为其他医学专业的榜样。」

Karthikesalingam 表示，基础模型是「一个非常灵活的框架」，并补充说，它们的特性似乎非常适合解决第一代医疗人工智能工具的一些局限性。

大型科技公司已经在投资医疗成像基础模型，这些模型使用多种图像类型（包括皮肤照片、视网膜扫描、X 射线和病理切片），并纳入电子健康记录和基因组数据。

6 月，谷歌研究院的科学家发表了一篇论文，描述了一种他们称之为 REMEDIS（「具有自监督功能的稳健高效的医学成像」）的方法，与传统方法相比，该方法能够将诊断准确率提高高达 11.5% 使用监督学习训练的人工智能工具。研究发现，在未标记图像的大数据集上预训练模型后，只需要少量标记图像即可实现这些结果。「我们的主要见解是，REMEDIS 能够以非常有效的方式，通过很少的示例，学习如何对许多不同的医学图像中的许多不同的事物进行分类，」包括胸部 X 光、数字病理扫描和乳房 X 光检查，该论文的合著者 Karthikesalingam 说道。

REMEDIS 方法概述，用于开发强大而高效的医学成像 ML。（来源：Nature Biomedical Engineering）

接下来的一个月，谷歌研究人员在预印本中描述了他们如何将该方法与该公司的医学大型语言模型 Med-PaLM 结合起来，该模型几乎可以像医生一样回答一些开放式的医学问题。其成果是 Med-PaLM Multimodal，这是一个单一的人工智能系统，它不仅可以解释胸部 X 射线图像，还可以用自然语言起草一份医疗报告。

Med-PaLM M 概述。（来源：arxiv.org）

微软还致力于将语言和视觉集成到单一的医疗人工智能工具中。6 月，该公司的科学家推出了 LLaVA-Med（生物医学大型语言和视觉助手），它通过从 PubMed Central（一个可公开访问的生物医学文章数据库）中提取的图像和文本进行训练。「一旦你做到了这一点，那么你基本上就可以开始与图像进行对话，就像与 ChatGPT 对话一样，」Microsoft Health Futures 生物医学人工智能研究负责人、计算机科学家 Hoifung Poon 说道。这种方法的挑战之一是它需要大量的文本-图像对。Poon 说，他和他的同事现在已经从 PubMed Central 收集了超过 4600 万对。

LLaVA-Med。（来源：arxiv.org）

随着这些模型接受越来越多的数据训练，一些科学家乐观地认为，他们可能能够识别人类无法识别的模式。Keane 提到了 Google 研究人员 2018 年的一项研究，该研究描述了能够从视网膜图像中识别人的特征（例如年龄和性别）的 AI 模型。Keane 说，即使是经验丰富的眼科医生也无法做到这一点。「因此，我们确实希望这些高维图像中嵌入了大量科学信息。」

Poon 表示，人工智能工具可以超越人类能力的一个例子是使用数字病理学来预测肿瘤对免疫疗法的反应。人们认为，肿瘤微环境------可以通过活检取样的癌性、非癌性和免疫细胞的环境------影响个体是否会对各种抗癌药物产生良好反应。「如果你能看到数以百万计已经接受过检查点抑制剂或其他免疫疗法的患者，你可以观察那些有特殊反应和无反应的患者，你就可以开始发现许多专家可能无法看到的模式。」Poon 说。

他警告说，尽管人工智能设备的诊断潜力令人兴奋，但这些工具的成功门槛也很高。人工智能的其他医疗用途，例如将参与者与临床试验相匹配，可能会产生更直接的影响。

Karthikesalingam 还指出，即使谷歌的医学成像人工智能取得了最好的结果，仍然无法与人类相媲美。「人类放射科医生的 X 射线报告仍然被认为明显优于最先进的多模式全科医疗系统，」他说。Karthikesalingam 补充道，尽管基础模型似乎特别适合扩大医疗人工智能工具的应用，但要证明它们可以安全地用于临床护理，还有很长的路要走。「虽然我们想要大胆，但我们也认为负责任也非常重要。」

Perchik 坚信人工智能在放射学领域的作用将继续增强，但他认为人们需要接受培训来使用人工智能，而不是取代放射科医生。2020 年，他为放射科医生组织了免费的人工智能扫盲课程，该课程已在美国各地扩大到 25 个项目。「我们所做的很多工作都是揭开人工智能的神秘面纱，并管理炒作与人工智能的现实情况，」他说。

参考内容：www.nature.com/articles/d4...