AI-人工智能指数报告（四）：科学、医学与教育

背景：
从2017年开始，斯坦福大学人工智能研究所（HAI）每年都会发布一份人工智能的研究报告，人工智能指数报告（AII），对上一年人工智能相关的数据进行跟踪、整理、提炼并进行可视化。这份指数报告被认为是关于全球人工智能发展状况最可信、最权威的来源之一。正值人工智能对社会的影响达到前所未有的时刻，前不久他们刚刚发布了第七份报告。今年的报告扩大了研究范围，以便更好地概括技术进步、公众看法等情况。整份报告分为八章，分别总结了人工智能的研发、技术性能、负责任的人工智能、经济、科学与医学、教育、政策与治理、多样性、舆论等方面的情况。我们选取部分编译出来，分四部分刊出，此为第四部分。

第五章

概述

今年的人工智能指数报告新增了一章，谈人工智能在科学与医学的应用，这是对人工智能在科学与医学发现过程中所扮演角色日益重要的肯定。本章聚焦了 2023 年人工智能促进取得的突出科学成就，其中包括像 GraphCast 这样的先进天气预测系统，以及像 GNoME 这样的改进型材料发现算法。本章还分析了医学人工智能系统的表现，比方说像 SynthSR 与 ImmunoSEIRA 这样人工智能驱动的重要医疗创新，以及 FDA 对相关人工智能医疗设备的许可趋势如何。

本章摘要
在人工智能的助力下，科学研究的进步更快了 。2022 年时，人工智能就已开始可以加速科学的发现了。但到了 2023 年，从提高算法排序效率的 AlphaDev，到促进材料发现过程的 GNoME，我们见证了更多与科学相关重大人工智能应用的问世。
人工智能帮助医学行业取得了重大进步 。2023 年推出了多项有重要意义的医学系统，其中包括助力提高疫情预测水平的 EVEscape，以及人工智能驱动，协助对突变进行分类的 AlphaMissence。人工智能正日益被用来推动医学的发展。
知识渊博的医学人工智能问世 。人工智能系统近年来在 MedQA 基准（一个评估人工智能临床知识的关键测试）测试的表现也有了显著提升。2023 年一个比较突出的是模型 GPT-4 Medprompt，其准确率达到了 90.2%，较 2022 年的最高分提高了 22.6 个百分点。自从 2019 年引入该基准测试以来，人工智能在 MedQA 上的表现提高了将近三倍。
美国食品药品监督管理局（FDA）许可的人工智能相关医疗设备的数量在不断上升。2022 年，FDA 给 139 款人工智能相关医疗设备颁发了许可，比 2021 年增长了 12.1%。自 2012 年以来，获得 FDA 许可的人工智能相关医疗设备数量已增加了 45 倍多。人工智能正逐渐被应用到医疗行业的实践当中。

5.1 值得注意的科学里程碑

AlphaDev
AlphaDev 发现了更快速的排序算法

AlphaDev 是一种新的人工智能强化学习系统。对于针对短序列进行排序的基本排序算法，如 Sort 3、Sort 4 及 Sort 5 这样的方面，AlphaDev 设计的算法指令数量可以少于现有的人类基准（见图 5.1.1）。AlphaDev 发现的一些新算法已被纳入 LLVM 标准 C++ 排序库，这是这个库的这部分 10 多年来的首次更新，也是第一个用强化学习的设计增补。

在这里插入图片描述
FlexiCubes
用FlexiCubes 进行3D 网格优化

在计算机图形技术当中，创建由点、线、面构成的3D 网格生成是定义三维物体形状的关键。该技术对视频游戏、动画、医疗成像及科学可视化具有关键意义。传统的等值面提取算法常苦于分辨率限制、结构刚性以及数值不稳定性等问题，导致最终产品质量受影响。与其他采用可区分等值面化的网格重建技术相比，FlexiCubes 实现的网格提取更贴近原始的真实情况（见图 5.1.3）。

Synbot
人工智能驱动，合成有机分子的机器人化学家

Synbot 用了一个种多层系统，包含一个用于化学合成规划的人工智能软件层、一个用于转换指令的机器人软件层，以及一个用于执行实验的物理机器人层。在旨在合成 M1 [4-(2,3-二甲氧基苯基)- 1H-吡咯[2,3-b]吡啶] 的实验里，Synbot 开发出了多个合成方案，其转换产率超过 80% 左右的对照组，且合成时间显著缩短（见图 5.1.5）。Synbot 在有机合成自动化方面的成功展示了人工智能在制药和材料科学等领域的潜在应用。
GraphCast
GraphCast提高了全球天气预报的准确性

GraphCast 是一款新型的天气预报系统，能够在不到一分钟内预测出长达十天的天气情况。GraphCast 利用了图神经网络和机器学习技术对大规模数据集进行处理，能预测温度、风速、大气条件等信息。图 5.1.7 对比了 GraphCast 与当前业界最先进天气模拟系统------高分辨率预报（HRES）的性能。GraphCast 的均方根误差更低，这意味着它的预报更接近观测到的实际天气模式。GraphCast 可以作为一个有价值的工具，用于解读天气模式，提高对极端天气事件的应对能力，并对全球气候研究做出贡献。
GNoME
GNoME 助力新材料的发现

在许多科学领域，包括在机器人技术与半导体制造领域，寻找新的功能性材料都是推动进步的关键。但这个探索过程通常很耗时而且成本高昂。最近谷歌的研究人员证明了，在大数据集的训练下，图网络（一种人工智能模型）能够加快这一发现过程。他们的模型 GNoME 在发现稳定晶体数量上超过了材料发现领域的领军方法------Materials Project，表现出更加优异的性能。GNoME 发现了 220 万种新的晶体结构，其中很多是人类研究者所忽略的。像 GNoME 这样的项目取得成功，凸显出在数据和规模扩展至加速科学突破方面的威力。
洪水预测
人工智能提升了洪水预测的准确性和可靠性

2023 年的一项新研究在预测大规模洪水活动方面有了显著进展。洪水作为最常见的自然灾害之一，在缺乏防范和减缓基础设施的欠发展国家，其破坏效果尤为严重。因此，发展能够更早预测这类事件的精确预测手段有着极为重要的意义。谷歌的研究团队利用人工智能开发出精确度高且适用于未设监测设施的流域的水文模拟模型。这些创新方法能够预测（最早可提早5天）某些极端洪水事件，其准确性能可与当前最先进的模型（如 GloFAS）匹敌或更胜一筹。该人工智能模型对系列重现期事件预测的精确性（肯定性预测的准确度）和召回率（正确辨识所有相关情况的能力）均有出色表现，超越了当前领先的方法（见图 5.1.11）。这个开源模型已被超过 80 个国家使用。

5.2 人工智能在医学领域的应用

人工智能模型在医疗保健领域变得愈发重要，其应用范畴包括从检测息肉到辅助临床医生诊断等各方面。随着人工智能性能的不断提高，监控其对医疗实践产生的影响变得越来越至关重要。本节重点介绍了 2023 年新推出的重要的人工智能相关医疗系统、人工智能在临床知识方面的最新情况，以及旨在加强医院管理的新型人工智能诊断工具和模型的研发进展。

值得关注的医疗系统
SynthSR：变革脑部扫描，实现先进分析

SynthSR 这个人工智能工具可以将临床大脑扫描转换为高分辨率的 T-1 加权影像（见图 5.2.1），促进创建出详细的三维脑部影像。该技术进步解决了之前导致高端研究不能使用很多扫描的扫描质量变异问题。SynthID 显著提升了大脑结构的可视化与分析水平，对神经科学研究和临床诊断起到了促进作用。
偶联等离子体红外传感器：偶联等离子体红外传感器可用于神经退行性病变检测

像帕金森和阿尔茨海默症这样的神经退行性疾病，其诊断需要依赖对生物标志物进行快速精确的辨识。传统的方法，如质谱和酶联免疫吸附试验（ELISA），在量化蛋白质水平方面表现突出；但是，这些方法不能识别结构状态的变化。但研究人员最近披露了一种新的神经退行性疾病诊断方法，这种结合了人工智能支持的等离子体红外传感器运用了表面增强红外吸收（SEIRA）光谱技术以及免疫分析技术（ImmunoSEIRA；见图 5.2.3）。在将人工智能系统预测的结果与实际的纤维百分比的对比测试中，预测的准度已非常接近实际报告的百分比（见图 5.2.4）。

EVEscape：预测病毒演变，预防流行病

预测病毒变异对疫苗研发以及尽量降低流行病的扩散至关重要。传统的预测方法需要靠实时的病毒株和抗体数据，在流行病早期阶段，会因为数据匮乏而遇到挑战。EVEscape 是一种新的人工智能深度学习模型，基于历史序列和生物物理以及结构信息进行训练，能预测病毒的演化。EVEscape 不依赖当下病毒株的数据即可独立评估病毒的逃逸机制，能预测出 50.0% 实测的 SARS-CoV-2 变异，优于传统实验室研究 46.2% 及 32.3%的结果，与之前的模型仅能预测到 24% 的变异更是相差巨大（见图 5.2.6）。这一表现突显出 EVEscape 有可能成为增强未来流行病预防与应对工作的重要工具。
AlphaMissence：人工智能帮助对突变进行更好的分类

科学家至今还没能弄清楚哪些遗传突变会导致疾病。在数百万种可能的基因突变当中，要确定一个突变是良性还是致病，需要依靠极其枯燥乏味的实验。

2023 年，谷歌 DeepMind 的研究者们推出了一种新的人工智能模型，AlphaMissense，这个模型能够预测 7100 万个错义突变（会影响人类蛋白功能，进而引发包括癌症在内的各种疾病的一种基因突变）变体的致病性。AlphaMissence 对总共 7100 万个错义变体进行了分类，确定出其中的 57% 可能为良性，32% 可能为致病性，剩下的则归类为不确定（见图 5.2.8）。相比之下，人类只能标注出其中 0.1% 的性质。

人类泛基因组参考：用人工智能绘制人类基因图谱

人类基因组是一套分子指令集。第一份人类基因组草图是在2000 年发布的，并在 2022 年进行了更新。但这次更新不够完整，并没有包含各种遗传变异，如血型等，也没有完整地绘制出多元化的祖先群体。因此，基于现有的基因组参考，对某些群体的疾病进行检测或寻找治疗手段会很困难。

2023 年，由 60 家机构的 119 名科学家组成的人类泛基因组研究联盟（Human Pangenome Research Consortium）利用人工智能做出了一份更新的且更具代表性的人类基因图谱。这份图谱的准确度非常高，注释的编码蛋白基因中位数达到 99.07%，编码蛋白的转录本为 99.42%，非编码基因为 98.16%，非编码转录本为 98.96%（参见图 5.2.10）。这个最新的基因图谱是目前为止最全面、遗传多样性最丰富的人类基因图谱。
临床知识

评估人工智能模型的临床知识涉及到确定其了解的医学专业知识的范围，尤其是在临床环境下可应用的知识的掌握程度。

MedQA

MedQA 是在 2020 年推出的一个综合数据集，源自职业医学委员会考试，包含有超过 60000 个临床问题。人工智能在 MedQA 的基准测试表现有了大幅提升，领先的 GPT-4 Medprompt 准确率达到了 90.2% ------比 2022 年的最高分提高了 22.6 个百分点（见图 5.2.11）。自从 MedQA 出现以来，人工智能在此基准测试的表现几乎增强了三倍，展示出临床知识型人工智能系统的进步神速。

诊断
FDA 批准的人工智能相关医疗设备

美国食品药品监督管理局（FDA）维护着一个已获批的人工智能/机器学习驱动的医疗设备清单。所列设备均符合 FDA 的市场准入标准。截至 2023 年 10 月，FDA 尚未给任何运用生成式人工智能或由大语言模型（LLM）驱动的设备颁发许可。

图 5.2.20 展示了过去十年内 FDA 批准的 AI 医疗设备的数量。在 2022 年，总共有 139 个 AI 相关医疗设备获得了 FDA 的批准，相比于 2021 年批准的总数增加了 12.1%。自 2012 年起，这类设备的数量增长了超过 45 倍。

图 5.2.21 显示了获 FDA 批准的医疗设备相关专业情况。在 2022 年获批准的 139 个设备当中，有相当大的多数与放射学相关（87.1%）。其次最常见的是心血管专业，占到了批准设备总数的 7.2%。

第六章教育概述

本章探讨了人工智能与计算机科学（CS）教育的趋势，主要关注的是谁在学、在哪儿学，以及趋势变化情况。在大家对人工智能对教育的影响日益担忧的背景下，本章还调查了教师和学生使用 ChatGPT 等新型人工智能工具的情况。

分析利用了计算研究协会（Computing Research Association）每年进行一次的 Taulbee 调查数据。报告先是对这份调查当中关于美国与加拿大高等教育的计算机科学与人工智能的教育现状进行概述，接着回顾了 Informatics Europe 提供的有关欧洲计算机科学教育的数据。今年报告还新增了来自 Studyportals 的数据，介绍了全球人工智能相关的英语学习项目的数量。

本章最后还介绍了 Code.org 提供的美国 K--12 教育中对计算机科学教育的剖析，以及沃尔顿基金会对学校使用 ChatGPT 的调查结果。

本章摘要
美国和加拿大计算机科学（CS）学士毕业生人数持续增加，硕士毕业生数量相对稳定，博士毕业生数量略有增长 。尽管美国和加拿大新学士毕业生数量已连续超过十年在稳步增长，但选择攻读计算机科学研究生的学生人数却变得相对平稳。自 2018 年以来，计算机科学硕士和博士毕业生的数量略有减少。
人工智能博士向产业界转移的趋势正在加速 。2011 年，人工智能博士毕业后选择进入产业界（40.9%）和学术界（41.6%）的比例大概是相等。但到了 2022 年，已经有很大一部分人选择了毕业后进入产业界（70.7%），相比之下呆在象牙塔的只有 20.0%。仅在过去一年的时间里，选择到产业界就业的人工智能博士比例就上升了 5.3 个百分点，这表明高校人才流失到产业界的情况正变得更为严重。
产业界跳槽到学术界的学术人才减少 。 2019 年时，美国和加拿大新增的人工智能教职员工当中有13%是来自产业界的。到 2021 年时，这个数字已降至 11%，到了 2022 年又进一步降至 7%。这个趋势表明从产业界跳槽到学术界的高层次人工智能人才在不断减少。

美国和加拿大的计算机科学教育国际化程度下降 。与 2021 年相比，2022 年获计算机科学本科、硕士和博士学位的国际学生的比例降低了。尤其硕士生这一类，国际学生的降幅格外突出。
修计算机科学课程的美国高中生更多了，但可得性的问题依然存在 。2022 年，共有 201000 名学生参加了高级计算机科学（AP CS）考试。自 2007 年以来，参加这些考试的学生数量已增长超十倍。不过，近期的证据显示，在较大的高中和郊区地区上学的学生更有可能有机会上计算机科学课。
全球范围内与人工智能相关的学位课程不断增加 。自 2017 年起，用英语授课的人工智能相关高等教育学位课程数量已经增长了三倍，且过去五年一直在稳定增长。全球的大学提供的以人工智能为中心的学位课程正日益增多。
在信息学、计算机科学、计算机工程以及信息技术研究生的输出数量上，英国和德国在欧洲处于领先位置。英国和德国培养出欧洲最多的信息学、计算机科学、计算机工程和信息技术本科、硕士和博士新增毕业生。从人均角度来看，芬兰在培养本科和博士毕业生方面居领先地位，而爱尔兰则在培养硕士毕业生方面领先。

焦点：ChatGPT在师生当中的使用情况

在对教育的潜在用途上，包括 ChatGPT在内的生成式人工智能工具的推出已经激起了广泛争论。有人对此表示担忧，认为这些工具可能被不当地用来作弊，从而可能促使对美国学生的教学方式进行重新评估。

于是，由沃尔顿家族基金会（Walton Family Foundation）资助的 Impact Research 进行了一系列调查，了解美国教师和教育工作者对 ChatGPT 的使用情况与看法。调查结果显示，美国的 K-12 教师大部分已经在使用 ChatGPT，使用率在一年内已有所增加： 2023 年 3 月时，有 51% 的教师报告至少用过一次 ChatGPT，而到了 7 月份时，这个数字已增长至 63%（图 6.2.9）。在报告使用过 ChatGPT 的教师当中，有 30% 的人是用来进行课程规划，另有 30% 是用来生成新的，有创意的课堂点子，27% 则用来加强自己的背景知识（图 6.2.10）。

不过无论是教师还是学生，大多数人对 ChatGPT 都抱有极其积极的态度。根据 2023 年 3 月的调查结果，有 88% 的教师认为 ChatGPT 的影响是积极的，这个看法也是 79% 被调查学生的共鸣（图 6.2.11）。此外，有 76% 的教师以及 65% 的学生认为在教育过程中融入 ChatGPT 很重要。这些最新数据表明，像 ChatGPT 这样的工具预计会在不久的将来成为美国教育场景下的主要工具。

本文翻译来自于神翻译局

AI-人工智能指数报告（四）：科学、医学与教育

第五章

5.1 值得注意的科学里程碑

第六章 教育 概述

第六章教育概述