斯坦福大学发布最新AI形势报告（2024）第五章：Science and Medicine

原文地址

摘要

今年的人工智能指数为人工智能在科学和医学中的应用开辟了新的篇章，以表彰人工智能在科学和医学发现中日益重要的作用。它探讨了2023年杰出的人工智能促进的科学成就，包括先进的天气预报系统，如GraphCast和改进的材料发现算法，如GNOME。本章还研究了医疗AI系统的性能，2023年AI驱动的重要医疗创新，如SynthSR和ImmunoSEIRA，以及FDA AI相关医疗设备的批准趋势。

Chapter Highlights

多亏了人工智能，科学进步进一步加速。2022年，人工智能开始推进科学发现。然而，2023年，更重要的科学相关AI应用的推出--从使算法排序更高效的AlphaDev，到促进材料发现过程的GNOME。
人工智能帮助医学向前迈进了一大步。2023年，推出了多个重要的医疗系统，包括增强大流行预测的EVEscape，以及辅助人工智能驱动的突变分类的AlphaMissence。人工智能正越来越多地被用于推动医疗进步。
知识渊博的医疗AI已经到来。在过去几年中，人工智能系统在MedQA基准测试（评估人工智能临床知识的关键测试）上表现出了显著的进步。2023年的佼佼者车型GPT-4 Medprompt的准确率达到90.2%，较2022年的最高分提升了22.6个百分点。自2019年引入该基准测试以来，MedQA上的AI性能增长了近两倍。
FDA批准了越来越多的AI相关医疗器械。2022年，FDA共批准了139件AI相关医疗器械，较2021年增长12.1%。自2012年以来，FDA批准的人工智能相关医疗器械数量增加了45倍以上。人工智能正越来越多地用于现实世界的医疗目的。

文章目录

摘要
[Chapter Highlights](#Chapter Highlights)
[5.1 Notable Scientific Milestones](#5.1 Notable Scientific Milestones)
- AlphaDev
- FlexiCubes
- Synbot
- GraphCast
- GNoME
- [Flood Forecasting](#Flood Forecasting)
[5.2 AI in Medicine](#5.2 AI in Medicine)
- 著名医疗系统
- - SynthSR
  - 耦合等离子体红外传感器
  - EVEscape
  - AlphaMissence
  - [Human Pangenome Reference](#Human Pangenome Reference)
- 临床知识
- - MedQA
- Diagnosis
- - 其他诊断用途
- FDA批准的AI相关医疗器械
- 管理和护理

5.1 Notable Scientific Milestones

本节重点介绍了人工智能指数指导委员会选择的2023年与人工智能相关的重大科学突破。

AlphaDev

AlphaDev发现更快的排序算法

AlphaDev是一个新的AI强化学习系统，它改进了科学家和工程师在计算算法增强领域数十年的工作。AlphaDev开发了比现有人类基准更少指令的算法，用于短序列的基本排序算法，如Sort 3，Sort 4和Sort 5（图5.1.1）。AlphaDev发现的一些新算法已被纳入LLVM标准C++排序库。这是10多年来该库的第一次更新，也是第一次使用强化学习设计的新增内容。

FlexiCubes

使用Cubes优化三维网格

3D网格生成在计算机图形学中至关重要，涉及创建顶点、边和面的网格来定义3D对象。它是视频游戏、动画、医学成像和科学可视化的关键。传统的等值面提取算法往往与有限的分辨率，结构刚性和数值不稳定性，从而影响质量的斗争。Cubes通过采用AI进行基于梯度的优化和自适应参数来解决其中的一些限制（图5.1.2）。该方法允许精确的局部网格调整。与利用可微等值面进行网格重建的其他领先方法相比，Cubes实现了与底层地面实况更紧密对齐的网格提取（图5.1.3）。

Synbot

人工智能驱动的机器人化学家用于合成有机分子

Synbot采用多层系统，包括用于化学合成规划的AI软件层，用于翻译命令的机器人软件层和用于进行实验的物理机器人层。人工智能和机器人系统之间的闭环反馈机制使Synbot能够开发出产量等于或超过既定参考的合成配方（图5.1.4）。在一项旨在合成M1 [4-（2，3-二甲氧基苯基）1H-吡咯并[2，3-B]吡啶]的实验中，Synbot开发了多种合成配方，其转化率超过了80%的参考范围，并在显著更短的时间内完成了合成（图5.1.5）。Synbot的有机合成自动化突出了人工智能在制药和材料科学等领域的潜力。

GraphCast

使用GraphCast进行更准确的全球天气预报

GraphCast是一个新的天气预报系统，可以在一分钟内提供高度准确的10天天气预报（图5.1.6）。利用图神经网络和机器学习，GraphCast处理大量数据集来预测温度、风速、大气状况等。图5.1.7比较了GraphCast与当前行业最先进的天气模拟系统：高分辨率预报（HRES）的性能。GraphCast发布的均方根误差较低，这意味着它的预测更接近于观测到的天气模式。GraphCast可以成为解读天气模式、加强对极端天气事件的准备以及为全球气候研究做出贡献的宝贵工具。

GNoME

使用GNOME发现新材料

寻找新的功能材料是各个科学领域进步的关键，包括机器人和半导体制造。然而，这种发现过程通常是昂贵和缓慢的。谷歌研究人员最近的进展表明，图网络（一种人工智能模型）在大型数据集上训练时可以加快这一过程。他们的模型GnoME通过识别大量的稳定晶体（图5.1.8），优于材料项目，材料项目是材料发现的领先方法。GNOME已经揭示了220万个新的晶体结构，其中许多被人类研究人员所忽视（图5.1.9和图5.1.10）。像GNOME这样的人工智能驱动项目的成功凸显了数据和扩展在加速科学突破方面的力量。

Flood Forecasting

人工智能用于更准确和可靠的洪水预报

2023年引入的新研究在预测大规模洪水事件方面取得了重大进展。洪水是最常见的自然灾害之一，在缺乏防灾和减灾基础设施的欠发达国家，其破坏性影响尤为严重。因此，开发更准确的预测方法，能够提前预测这些事件，可能会产生重大的积极影响。谷歌的一个研究团队利用人工智能开发了高精度的水文模拟模型，这些模型也适用于无资料的流域。1这些创新方法可以提前五天预测某些极端洪水事件，其准确性可与当前最先进的模型（如GloFAS）相媲美或超越。AI模型在一系列重现期事件中表现出了上级的精确度（正预测的准确度）和召回率（正确识别所有相关实例的能力），优于领先的当代方法（图5.1.11）。2该模型是开源的，已被用于预测80多个国家的洪水事件。

5.2 AI in Medicine

人工智能模型在医疗保健中越来越有价值，用于检测息肉以帮助临床医生进行诊断。随着人工智能性能的不断提高，监测其对医疗实践的影响变得越来越重要。本节重点介绍了2023年引入的重要人工智能相关医疗系统、临床人工智能知识的现状，以及旨在加强医院管理的新人工智能诊断工具和模型的开发。

著名医疗系统

本节确定了AI指数指导委员会选择的2023年与AI相关的重大医学突破。

SynthSR

将大脑扫描转化为高级分析

SynthSR是一种AI工具，可将临床脑部扫描转换为高分辨率T-1加权图像（图5.2.1）。这一进步解决了扫描质量可变性的问题，以前限制了许多扫描在高级研究中的使用。通过将这些扫描转换为T1加权图像，以其高对比度和清晰的大脑结构描述而闻名，SynthSR有助于创建详细的3D大脑渲染图。使用SynthSR的实验表明，在扫描和受试者水平上观察到的体积之间存在强大的相关性，这表明SynthSR生成的图像与高分辨率T1扫描产生的图像非常相似。图5.2.2显示了SynthSR扫描与选定大脑区域的地面实况观察结果的对应程度。SynthID显著改善了大脑结构的可视化和分析，促进了神经科学研究和临床诊断。

耦合等离子体红外传感器

用于检测神经退行性疾病的耦合等离子体红外传感器

帕金森氏症和阿尔茨海默氏症等神经退行性疾病的诊断取决于快速准确地识别生物标志物。传统的方法，如质谱法和ELISA，是有用的，因为它们可以专注于定量蛋白质水平;然而，它们不能辨别结构状态的变化。今年，研究人员发现了一种用于神经退行性疾病诊断的新方法，该方法将使用表面增强红外吸收（SEIRA）光谱的AI耦合等离子体红外传感器与免疫测定技术相结合（ImmunoSEIRA;图5.2.3）。在将实际原纤维百分比与人工智能系统的预测进行比较的测试中，发现预测的准确性与实际报告的百分比非常接近（图5.2.4）。

EVEscape

预测病毒演变以备大流行

预测病毒突变对于疫苗设计和最大限度地减少大流行至关重要。传统方法依赖于实时病毒株和抗体数据，由于数据稀缺，在大流行早期阶段面临挑战。EVEscape是一种新的人工智能深度学习模型，根据历史序列以及生物物理和结构信息进行训练，可预测病毒的进化（图5.2.5）。EVEscape独立于当前毒株数据评估病毒逃逸，预测50.0%观察到的SARS-CoV-2突变，优于传统实验室研究（预测46.2%和32.3%）以及先前模型（仅预测24%的突变）（图5.2.6）。这一表现突出了EVEscape作为加强未来大流行防范和应对工作的宝贵资产的潜力。

AlphaMissence

AI突变的更好分类

科学家仍然不完全了解哪些基因突变导致疾病。有数百万种可能的基因突变，确定突变是良性的还是致病的需要劳动密集型实验。2023年，谷歌DeepMind的研究人员发布了AlphaMissense，这是一种新的人工智能模型，预测了7100万个错义变体的致病性。错义突变是影响人类蛋白质功能的遗传改变（图5.2.7），可导致各种疾病，包括癌症。在7100万个可能的错义变体中，AlphaMissense对89%进行了分类，确定57%可能是良性的，32%可能是致病的，而其余的则被归类为不确定的（图5.2.8）。相比之下，人类注释者只能确认所有错义突变中0.1%的性质。

Human Pangenome Reference

利用AI绘制人类基因组图谱

人类基因组是人类的一组分子指令。第一份人类基因组草图于2000年发布，并于2022年更新。然而，更新有些不完整。它不包括各种基因突变，如血型，也没有完全映射不同的祖先群体。因此，在现有的基因组参考下，很难在某些人群中发现疾病或找到治疗方法。2023年，由来自60个机构的119名科学家组成的人类泛基因组研究联盟利用人工智能开发了一个更新的、更具代表性的人类基因组图谱（图5.2.9）。研究人员实现了惊人的准确性，注释了99.07%的蛋白质编码基因，99.42%的蛋白质编码转录本，98.16%的非编码基因和98.96%的非编码转录本，如图5.2.10所示。

这一最新版本的基因组代表了迄今为止人类基因组最全面和遗传多样性的映射。

临床知识

评估人工智能模型的临床知识涉及确定其医学专业知识的程度，特别是适用于临床环境的知识。

MedQA

MedQA于2020年推出，是一个来自专业医学委员会考试的综合数据集，包含超过60，000个旨在挑战医生的临床问题。人工智能在MedQA基准测试中的表现有了显著的改善，领先的系统GPT-4 Medprompt的准确率达到90. 2%，比2022年的最高分提高了22. 6个百分点（图5. 2. 11）。自MedQA成立以来，该基准的AI能力几乎增加了两倍，展示了临床知识AI系统的快速改进。

Highlighted Research: GPT-4 Medprompt

虽然LLM表现出令人印象深刻的一般知识，但人们通常认为，他们需要进行重大的微调才能在专业知识方面表现出色，例如回答医学问题。Finetuning需要在特定领域的数据上培训LLM。微软在2023年底的研究推翻了这一假设。本研究采用快速工程技术指导GPT-4在MultiMedQA基准套件（一组四个具有挑战性的医学基准）上实现卓越性能（图5.2.12）。GPT-4 Medprompt在PubMedQA、MedMCQA和MMLU等几个著名医学基准的多项选择部分的表现分别超过了2022年的顶级型号Flan-PaLM 540 B，分别高出3.0、21.5和16.2个百分点。它也超过了当时最先进的Med-PaLM 2的性能（图5.2.13）。

此外，如前所述，GPT-4 Medprompt是第一个在MedQA基准测试中超过90%准确率的测试。这一突破不仅强调了GPT-4 Medprompt的特殊和潜在的临床有用的医疗能力，而且还表明，微调可能并不总是必要的，以适应专门领域的模型。快速工程已被证明是一个有前途的替代战略。

Highlighted Research: MediTron-70B

GPT-4 Medprompt是一个令人印象深刻的系统;然而，它是封闭源代码的，这意味着它的权重不能免费提供给更广泛的公众使用。2023年的新研究也试图提高开源医学LLM的能力。在这项新研究中，MediTron-70 B特别有前途。该模型在MedQA基准测试中达到了70.2%的准确率。尽管这低于GPT-4 Medprompt和MedPaLM 2（均为封闭模型）的性能，但它代表了对2023年最新结果的显著改进，并超过了Llama 2等其他开源模型（图5.2.14）。MediTron-70 B在MedQA上的得分是开源模型中最高的。如果医疗人工智能要充分发挥其潜力，重要的是它的功能可以广泛使用。在这方面，MediTron代表了令人鼓舞的进步。

Diagnosis

AI工具也可用于诊断目的，例如放射学或癌症检测。

Highlighted Research: CoDoC

人工智能医疗成像系统展示了强大的诊断能力，但也有一些情况下，它们会忽略临床医生的诊断，反之亦然。这一观察结果表明人工智能系统和临床医生诊断能力的逻辑整合。2023年，研究人员推出了CoDoC（互补驱动的临床工作流程延迟），这是一个旨在识别何时依赖人工智能进行诊断以及何时推迟传统临床方法的系统。CoDoC显著增强了灵敏度（正确识别患有疾病的个体的能力）和特异性（准确识别没有疾病的个体的能力）。具体而言，在四个医疗数据集中，CoDoC的灵敏度平均超过临床医生4.5个百分点，超过独立AI模型6.5个百分点（图5.2.15）。在特异性方面，CoDoC在测试数据集中的平均表现优于临床医生2.7个百分点，而独立预测模型则优于临床医生5.7个百分点。此外，CoDoC已被证明可将临床工作流程减少66%。这些发现表明，人工智能医疗系统可以集成到临床工作流程中，从而提高诊断的准确性和效率。

Highlighted Research: CT Panda

目前胰腺导管腺癌（PDAC）是一种致死性很强的恶性肿瘤，通常发现的太迟而无法进行手术治疗，在无症状个体中筛查PDAC具有挑战性，因为其患病率较低且存在假阳性风险。今年，中国的一个研究团队开发了PANDA（人工智能胰腺癌检测），这是一种能够在X射线中高效检测和分类胰腺病变的AI模型（图5.2.16）。在验证测试中，PANDA的灵敏度和特异性分别超过了放射科医生平均水平的34.1%和6.3%（图5.2.17）。在一项涉及约20，000例患者的大规模真实世界试验中，PANDA的灵敏度和特异性分别为92.9%和99.9%（图5.2.18）。PANDA等人工智能医疗工具在诊断具有挑战性的疾病方面取得了重大进步，提供了以前被认为困难或禁止的经济高效且准确的检测。

其他诊断用途

2023年发表的新研究强调了人工智能如何用于其他诊断环境。图5.2.19总结了一些调查结果。

作者对探索基于乳腺X线摄影图像的AI算法的文献进行了荟萃综述。他们发现，仅使用乳房X光检查图像预测未来乳腺癌风险的准确性与传统风险评估工具相当或更好。

研究人员开发了两个开源神经网络X-Raydar和X-Raydar-NLP，用于使用图像和自由文本报告对胸部X射线进行分类。他们发现，这些自动分类方法的性能与人类专家相当，并且在应用于外部数据集时表现出鲁棒性。

FDA批准的AI相关医疗器械

美国食品和药物管理局（FDA）保留了一份已获得批准的AI/ML医疗设备清单。此列表中的设备符合FDA的上市前标准，其中包括对其有效性和安全性的详细审查。截至2023年10月，FDA尚未批准任何使用生成AI或由LLM供电的设备。

图5.2.20显示了过去十年FDA批准的人工智能医疗器械数量。2022年，共有139款人工智能相关医疗器械获得FDA批准，较2021年批准总数增加12. 1%。自2012年以来，这些设备的数量增加了45倍以上。

图5.2.21说明了与FDA批准的医疗器械相关的专业。在2022年批准的139种器械中，绝大多数（87.1%）与放射学相关。其次最常见的专科是心血管，占批准的7.2%。

管理和护理

人工智能工具还具有提高医疗管理效率和提高患者护理标准的潜力。

Highlighted Research: MedAlign

尽管人工智能在医疗保健方面取得了重大进展，但MedQA和USMLE等现有基准专注于基于知识的问题，并不能完全捕捉临床医生在患者护理中执行的各种任务。临床医生经常从事信息密集型任务，例如创建定制的诊断计划，并将其工作时间的很大一部分用于管理任务。尽管人工智能有可能简化这些流程，但缺乏合适的电子健康记录（EHR）数据集来对医疗管理LLM进行基准测试和微调。今年，研究人员通过引入MedAlign来解决这一差距，MedAlign是一个基于EHR的综合基准，包含来自七个不同医学专业的983个问题和说明以及303个临床医生回复（图5.2.22）。MedAlign是第一个广泛的EHR基准。然后，研究人员在MedAlign上测试了各种现有的LLM。在所有LLM中，使用多步优化的GPT-4变体实现了最高的正确率（65.0%），并且通常优于其他LLM（图5.2.23）。MedAlign是使用人工智能减轻医疗保健管理负担的一个重要里程碑。

以上内容全部使用机器翻译，如果存在错误，请在评论区留言。欢迎一起学习交流！
如有侵权，请联系我删除。xingyezn@163.com