摘要
欢迎阅读第七版人工智能指数报告。2024年指数是我们迄今为止最全面的指数,是AI对社会的影响空前显著的重要时刻。今年,我们扩大了范围,更广泛地涵盖基本趋势,如人工智能的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态。本版比以往任何时候都具有更多的原始数据,介绍了人工智能培训成本的新估计,对负责任的人工智能景观的详细分析,以及专门讨论人工智能对科学和医学的影响的全新章节。AI索引报告跟踪、整理、提取和可视化与人工智能(AI)相关的数据。我们的使命是提供公正、严格审查、广泛来源的数据,以便决策者、研究人员、高管、记者和公众对人工智能的复杂领域有更透彻和细致的了解。人工智能指数是全球公认的最可靠和最权威的人工智能数据和见解来源之一。之前的版本曾被《纽约时报》、《彭博社》和《卫报》等主要报纸引用,已经积累了数百条学术引文,并被美国、英国和欧盟等地的高层决策者引用。今年的版本在规模、规模和范围上都超过了以前的版本,反映出人工智能在我们生活中越来越重要。
联席董事致辞
十年前,世界上最好的人工智能系统无法在人类水平上对图像中的对象进行分类。艾很难理解语言,不能解决数学问题。今天,人工智能系统通常在标准基准上超过人类的性能。2023年进展加快。GPT-4、Gemini和Claude 3等最先进的新系统是令人印象深刻的多模态系统:它们可以生成数十种语言的流畅文本,处理音频,甚至解释模因。随着人工智能的进步,它越来越多地进入我们的生活。公司正在竞相开发基于人工智能的产品,人工智能越来越多地被公众使用。但目前的人工智能技术仍然存在着明显的问题。它不能可靠地处理事实,进行复杂的推理,或解释其结论。人工智能面临着两个相互关联的未来。首先,技术不断改进并得到越来越多的使用,对生产力和就业产生重大影响。它既有好的用途,也有坏的用途。在第二个未来,人工智能的采用受到技术限制。无论未来如何发展,各国政府都日益关注。他们正在采取措施鼓励上涨,比如资助大学研发和鼓励私人投资。政府还致力于管理潜在的不利因素,如对就业、隐私问题、错误信息和知识产权的影响。随着人工智能的快速发展,人工智能指数旨在帮助人工智能社区、决策者、商业领袖、记者和普通公众了解这一复杂的环境。它提供了跟踪几个关键领域的持续、客观的快照:人工智能能力的技术进步、推动人工智能开发和部署的社区和投资、当前和潜在未来影响的公众意见,以及在管理其风险和挑战的同时为刺激人工智能创新而采取的政策措施。通过全面监测人工智能生态系统,该指数成为了解这一变革性技术力量的重要资源。在技术方面,今年的AI指数显示,2023年全球发布的新型大型语言模型数量比前一年翻了一番。三分之二是开源的,但性能最高的模型来自于具有封闭系统的行业参与者。Gemini Ultra成为第一个在大规模多任务语言理解(MMLU)基准上达到humanlevel性能的LLM;自去年以来,该指标的表现提高了15个百分点。此外,GPT-4在语言模型综合整体评价(HELM)基准上取得了令人印象深刻的0.96平均获胜率得分,其中包括MMLU和其他评价。
十大收获
- 人工智能在某些任务上胜过人类,但不是在所有任务上。人工智能在一些基准上超过了人类的表现,包括在图像分类、视觉推理和英语理解方面。然而,它在更复杂的任务上落后,比如竞争级别的数学、视觉常识推理和规划。
- 行业继续主导前沿人工智能研究。2023年,工业界产生了51个著名的机器学习模型,而学术界只贡献了15个。2023年,有21个值得注意的模型来自于工业界和学术界的合作,创下新高。前沿车型价格更高。
- 根据人工智能指数估计,最先进人工智能模型的培训成本达到了前所未有的水平。例如,OpenAI的GPT-4使用了价值7800万美元的计算机进行培训,而Google的Gemini Ultra的计算机成本为1.91亿美元。
- 美国领先中国、欧盟和英国,成为顶级AI模型的主要来源地。2023年,61个著名的人工智能模型源自美国机构,远远超过欧盟的21个和中国的15个。
- 严重缺乏对LLM责任的稳健和标准化评估。AI指数的最新研究表明,负责任的AI报告严重缺乏标准化。领先的开发人员,包括OpenAI、Google和Anthropic,主要根据不同的负责任的AI基准测试他们的模型。这种做法使系统比较顶级人工智能模型的风险和局限性的工作复杂化。
- 生成性人工智能投资猛增。尽管去年人工智能私人投资总额有所下降,但用于生成型人工智能的资金猛增,比2022年增加了近八倍,达到252亿美元。生成型人工智能领域的主要参与者,包括OpenAI、人性化、拥抱脸孔和拐点,报告了大量的筹款活动。
- 数据如下:人工智能使工人更有生产力,并带来更高质量的工作。2023年,几项研究评估了人工智能对劳动力的影响,表明人工智能使工人能够更快地完成任务,并提高产出质量。这些研究也证明了人工智能有潜力弥合低技能和高技能工人之间的技能差距。尽管如此,其他研究警告说,使用人工智能如果没有适当的监督,可能会导致性能下降。
- 得益于人工智能,科学进步进一步加快。2022年,人工智能开始推动科学发现。然而,2023年,更重要的与科学相关的人工智能应用程序启动了------从AlphaDev(使算法排序更高效)到GNoME(促进材料发现过程)。
- 美国人工智能法规数量急剧增加。在过去一年和过去五年中,美国与航空相关的法规数量显著增加。2023年,有25项AI相关法规,而2016年只有一项。仅去年一年,人工智能相关法规的总数就增长了56.3%。全球范围内的人们越来越认识到人工智能的潜在影响,也越来越紧张。
- 益普索的一项调查显示,在过去的一年里,认为人工智能将在未来三到五年内显著影响自己生活的人的比例从60%上升到66%。此外,52%的受访者对人工智能产品和服务表示紧张,较2022年上升了13个百分点。在美国,皮尤的数据显示52%的美国人对人工智能的关注多于兴奋,而2022年这一比例为37%。
文章目录
- 摘要
- 联席董事致辞
- 十大收获
- 章节摘要
- 亮点
- [1.1 Publications](#1.1 Publications)
-
- Overview
- [AI Journal Publications](#AI Journal Publications)
- [AI Conference Publications](#AI Conference Publications)
- [1.2 Patents](#1.2 Patents)
-
- [AI Patents](#AI Patents)
- [1.3 Frontier AI Research](#1.3 Frontier AI Research)
-
- [General Machine Learning Models](#General Machine Learning Models)
- [Foundation Models](#Foundation Models)
- [Training Cost](#Training Cost)
- [1.4 AI Conferences](#1.4 AI Conferences)
-
- [Conference Attendance](#Conference Attendance)
- [1.5 Open-Source AI Software](#1.5 Open-Source AI Software)
- Appendix
章节摘要
本章研究人工智能研究和开发的趋势。它首先检查AI出版物和专利的趋势,然后检查著名AI系统和基础模型的趋势。通过分析AI会议出席情况和开源AI软件项目得出结论。
亮点
- 行业继续主导前沿人工智能研究。2023年,工业界产生了51个著名的机器学习模型,而学术界只贡献了15个。2023年,有21个值得注意的模型来自于工业界和学术界的合作,创下新高。
- 基础模型多,明基模型多。2023年,共发布了149个基础模型,是2022年发布量的两倍多。在这些新发布的模型中,65.7%是开源的,而2022年和2021年分别只有44.4%和33.3%。
- 前沿模型价格更高。根据人工智能指数估计,最先进人工智能模型的培训成本达到了前所未有的水平。例如,OpenAI的GPT-4使用了价值7800万美元的计算机进行培训,而Google的Gemini Ultra的计算机成本为1.91亿美元。
- 美国领先中国、欧盟和英国,成为顶级AI模型的主要来源地。2023年,61个著名的人工智能模型源自美国机构,远远超过欧盟的21个和中国的15个。
- 人工智能专利数量猛增。2021年至2022年,全球人工智能专利授权大幅增长62.7%。自2010年以来,人工智能专利授权数量增长了31倍以上。
- 中国主导人工智能专利。2022年,中国以61.1%的份额领跑全球人工智能专利起源地,远远超过美国,美国占人工智能专利起源地的20.9%。自2010年以来,美国在人工智能专利中的份额从54.1%下降。
- 开源人工智能研究爆炸式发展。自2011年以来,GitHub上与人工智能相关的项目数量持续增长,从2011年的845个增加到2023年的180万个左右。值得注意的是,仅在2023年,GitHub AI项目的总数就急剧增长了59.3%。GitHub上AI相关项目的STAR总数在2023年也显著增加,从2022年的400万增加到1220万,增加了两倍多。
- 人工智能出版物数量持续上升。2010年至2022年间,人工智能出版物的总数几乎翻了三倍,从2010年的约88000份增至2022年的240000多份。与去年相比,增幅为1.1%。
1.1 Publications
Overview
下图显示了2010年至2022年全球英语AI出版物的数量,按隶属关系和跨部门合作类型分类。此外,本节还详细介绍了AI期刊文章和会议论文的出版数据。
AI出版物总数
图1.1.1显示了人工智能出版物的全球数量。从2010年到2022年,人工智能出版物的总数增长了近两倍,从2010年的约8.8万篇增至2022年的逾24万篇。与去年相比,增长率仅为1.1%。
By Type of Publication
图1.1.2显示了AI出版物类型随时间的全球分布。在2022年,大约有230,000篇AI期刊文章,而大约有42,000篇会议论文。自2015年以来,人工智能期刊和会议出版物以可比的速度增长。2022年,会议出版物数量是2015年的2.6倍,期刊出版物数量是2.4倍。
By Field of Study
图1.1.3检查了自2010年以来按研究领域划分的AI出版物总数。机器学习出版物在过去十年中增长最快,自2015年以来增长了近7倍。在机器学习之后,2022年发表最多的人工智能领域是计算机视觉(21,309篇出版物),模式识别(19,841篇)和流程管理(12,052篇)。
By Sector '
本节介绍了人工智能出版物在全球范围内的分布情况,包括教育、政府、工业、非营利组织和其他部门,特别是在美国、中国、欧盟和英国。2022年,学术界贡献了大部分人工智能出版物(81. 1%),在过去十年中保持了其作为全球人工智能研究主要来源的地位(图1. 1. 4和图1. 1. 5)。美国的行业参与度最高,其次是欧盟、英国和中国(图1.1.5)。
AI Journal Publications
图1.1.6显示了2010年至2022年人工智能期刊出版物的总数。AI期刊出版物的数量在2010年至2015年期间略有增长,但自2015年以来增长了约2.4倍。在2021年至2022年期间,人工智能期刊出版物增长了4.5%。
AI Conference Publications
图1.1.7可视化了自2010年以来人工智能会议出版物的总数。人工智能会议出版物的数量在过去两年中显著增加,从2020年的22,727份攀升至2021年的31,629份,并在2022年达到41,174份。仅在过去一年中,AI会议出版物就增加了30.2%。自2010年以来,人工智能会议出版物的数量增加了一倍多。
1.2 Patents
本节探讨了全球人工智能专利的长期趋势,这些趋势可以揭示人工智能领域创新、研究和开发演变的重要见解。此外,分析人工智能专利可以揭示这些进步是如何在全球分布的。与出版物数据类似,人工智能专利数据的可用性明显延迟,2022年是可访问数据的最近一年。本节中的数据来自CSET。
AI Patents
Overview
图1.2.1考察了2010年至2022年全球人工智能专利授权的增长情况。在过去的十年中,人工智能专利的数量显著增加,最近1.2个专利年的增长尤为明显。例如,在2010年至2014年期间,授予的人工智能专利的总增长率为56.1%。然而,仅从2021年到2022年,人工智能专利数量就增长了62.7%。
By Filing Status and Region
下一节按申请状态(无论是否被授予)以及公布地区对人工智能专利进行了分类。图1.2.2按申请状态比较了全球人工智能专利。2022年,未授予的人工智能专利数量(128,952)是已授予数量(62,264)的两倍多。随着时间的推移,人工智能专利审批的格局发生了显著变化。直到2015年,更大比例的人工智能专利被授予。然而,从那以后,大多数人工智能专利申请都没有获得批准,差距显著扩大。例如,在2015年,所有提交的人工智能专利中有42.2%没有被授予。到2022年,这一数字上升到67.4%。
在所有主要的专利起源地理区域,包括中国、欧盟和英国以及美国,已授予和未授予的人工智能专利之间的差距都很明显(图1.2.3)。近年来,这三个地理区域的人工智能专利申请总数和专利授权数量都有所增加。
图1.2.4显示了已授予人工智能专利的区域细分。截至2022年,全球大部分已授予的人工智能专利(75.2%)来自东亚和太平洋地区,北美是第二大贡献者,占21.2%。截至2011年,北美在全球人工智能专利数量方面处于领先地位。然而,从那时起,来自东亚和太平洋地区的人工智能专利比例出现了重大转变。
按地理区域划分,世界上大部分授予的人工智能专利来自中国(61.1%)和美国(20.9%)(图1.2.5)。来自美国的人工智能专利份额已从2010年的54.1%下降。
图1.2.6和图1.2.7记录了哪些国家在人均人工智能专利方面领先。2022年,每10万居民中获得人工智能专利最多的国家是韩国(10. 3),其次是卢森堡(8. 8)和美国(4. 2)(图1. 2. 6)。图1.2.7显示了2012年至2022年人均人工智能专利授权的变化。在此期间,新加坡、韩国和中国的人均人工智能专利申请量增幅最大。
1.3 Frontier AI Research
本节探讨了人工智能研究的前沿。虽然每年都会推出许多新的人工智能模型,但只有一小部分代表了最先进的研究。诚然,什么构成了先进或前沿的研究多少有些主观性。前沿研究可以反映出一个模型在基准测试中发布了一个新的最先进的结果,引入了一个有意义的新架构,或者运用了一些令人印象深刻的新功能。人工智能指数研究两类前沿人工智能模型的趋势:"显著模型"和基础模型。3人工智能指数数据提供商Epoch使用"显著机器学习模型"一词来指定在人工智能/机器学习生态系统中特别有影响力的精选显著模型。相比之下,基础模型是在海量数据集上训练的超大型人工智能模型,能够执行大量下游任务。基础模型的示例包括GPT-4、Claude 3和Gemini。虽然许多基础模型可能符合显著模型的条件,但并非所有显著模型都是基础模型。在本节中,AI指数从多个角度探讨了值得注意的模型和基础模型的趋势,包括来源组织、来源国、参数计数和计算使用情况。分析最后对机器学习培训成本进行了检验。
General Machine Learning Models
Overview
Epoch AI是一组致力于研究和预测高级AI进化的研究人员。他们维护了一个自20世纪50年代以来发布的人工智能和机器学习模型的数据库,根据最新进展、历史意义或高引用率等标准选择条目。分析这些模型可以全面概述近年来和过去几十年来机器学习领域的演变。4数据集中可能缺少一些模型;但是,数据集可以揭示相对趋势。
Sector Analysis
直到2014年,学术界才引领了机器学习模型的发布。从那时起,工业就走在了前面。2023年,工业界产生了51个著名的机器学习模型,而学术界只有15个(图1.3.1)。值得注意的是,2023年有21个著名模型来自行业/学术合作,创新高。创建尖端的人工智能模型现在需要大量的数据、计算能力和财政资源,而这些在学术界是无法获得的。在领先的人工智能模型中,这种向工业主导地位的转变首次在去年的人工智能指数报告中得到强调。虽然今年的差距略有缩小,但这一趋势基本上仍在继续。
National Affiliation
为了说明人工智能不断发展的地缘政治格局,AI Index研究团队分析了著名模型的原产国。图1.3.2显示了归因于研究人员附属机构所在地的著名机器学习模型的总数。5 2023年,美国以61个著名机器学习模型领先,其次是中国的15个,法国的8个。自2019年以来,欧盟和英国的人工智能模型数量首次超过中国(图1.3.3)。自2003年以来,美国生产的模型数量超过了其他主要地理区域,如英国、中国和加拿大(图1.3.4)。
Parameter Trends
机器学习模型中的参数是在训练过程中学习的数值,这些数值决定了模型如何解释输入数据并进行预测。在更多数据上训练的模型通常比在更少数据上训练的模型具有更多的参数。同样,具有更多参数的模型通常优于具有较少参数的模型。图1.3.5展示了Epoch数据集中机器学习模型的参数计数,按模型来源的部门分类。自21世纪10年代初以来,参数数量急剧上升,反映了人工智能模型设计任务的复杂性日益增加,数据可用性更高,硬件改进以及更大模型的有效性。高参数模型在工业领域尤其引人注目,这突显了OpenAI、Anthropic和Google等公司承担大量数据训练计算成本的能力。
Compute Trends
AI模型中的术语"计算"表示训练和操作机器学习模型所需的计算资源。通常,模型的复杂性和训练数据集的大小直接影响所需的计算量。模型越复杂,底层训练数据越大,训练所需的计算量就越大。图1.3.6显示了过去20年中著名机器学习模型所需的训练计算。最近,著名人工智能模型的计算使用量呈指数级增长,这种趋势在过去五年中尤为明显。计算需求的快速增长具有关键意义。例如,需要更多计算的模型通常具有更大的环境足迹,并且公司通常比学术机构拥有更多的计算资源。
图1.3.7显示了自2012年以来著名机器学习模型的训练计算。例如,AlexNet是推广使用GPU改进AI模型的标准实践的论文之一,估计需要470 petaFLOP进行训练。最初的Transformer于2017年发布,需要大约7,400 petaFLOP。谷歌的Gemini Ultra是目前最先进的基础模型之一,需要500亿petaFLOPs。
Highlight: 模型会耗尽数据吗?
如上所述,最近的算法进展,包括强大的LLM背后的进展,有很大一部分是通过在越来越大量的数据上训练模型来实现的。正如Anthropic联合创始人兼人工智能指数指导委员会成员Jack Clark最近指出的那样,基础模型已经在互联网上存在的所有数据中进行了有意义的百分比训练。
人工智能模型日益增长的数据依赖性导致人们担心未来几代计算机科学家将耗尽数据来进一步扩展和改进他们的系统。Epoch的研究表明,这些担忧在某种程度上是有道理的。Epoch的研究人员已经生成了基于历史和计算的预测,以预测人工智能研究人员可能会在何时耗尽数据。历史预测是基于用于训练基础模型的数据大小的观察增长率。计算预测根据计算可用性预测调整历史增长率。
例如,研究人员估计,到2024年,计算机科学家可能会耗尽高质量的语言数据,在20年内耗尽低质量的语言数据,并在21世纪30年代末至40年代中期耗尽图像数据(图1.3.8)。
从理论上讲,数据可用性有限的挑战可以通过使用人工智能模型本身生成的合成数据来解决。例如,可以使用由一个LLM产生的文本来训练另一个LLM。使用合成数据来训练人工智能系统特别有吸引力,这不仅是因为它可以解决潜在的数据枯竭问题,而且因为生成式人工智能系统原则上可以在自然发生的数据稀疏的情况下生成数据,例如罕见疾病或代表性不足的人群的数据。直到最近,使用合成数据来训练生成式AI系统的可行性和有效性还没有得到很好的理解。然而,今年的研究表明,在合成数据上训练模型存在局限性。
例如,一个由英国和加拿大研究人员组成的团队发现,主要在合成数据上训练的模型会经历模型崩溃,这种现象是随着时间的推移,它们失去了记住真实底层数据分布的能力,并开始产生狭窄的输出范围。图1.3.9展示了变分自动编码器(VAE)模型中模型崩溃的过程,这是一种广泛使用的生成式AI架构。随着后续每一代都在额外的合成数据上进行训练,该模型产生的输出集越来越有限。如图1.3.10所示,从统计学角度来看,随着合成世代数量的增加,分布的尾部消失,世代密度向平均值移动。7这种模式意味着随着时间的推移,主要在合成数据上训练的模型的世代变得变化较小,分布也不那么广泛。作者证明了这种现象发生在各种模型类型中,包括高斯混合模型和LLM。这项研究强调了人类生成的数据对于训练能够产生各种内容的LLM的持续重要性。
在2023年发表的一项关于在生成成像模型中使用合成数据的类似研究中,研究人员发现,仅在合成数据周期上训练的生成图像模型-或者使用不足的真实的人类数据-在输出质量方面会出现显著下降。作者将这种现象称为自噬障碍模型(MAD),与疯牛病有关。该研究考察了两种类型的训练过程:完全合成,其中模型仅在合成数据上训练,以及合成增强,其中模型在合成和真实的数据的混合上训练。
在这两种情况下,随着训练代数的增加,生成图像的质量会下降。图1.3.11突出显示了使用合成数据增强的模型的退化图像生成;例如,在步骤7和9中生成的人脸越来越多地显示奇怪的哈希标记。从统计学角度来看,使用合成数据和合成增强循环生成的图像具有较高的FID评分(表明与真实的图像的相似性较低)、较低的精确度评分(表明真实性或质量降低)和较低的召回率评分(表明多样性降低)(图1.3.12)。虽然合成增强循环(其中包含一些真实的数据)显示出比完全合成循环更少的退化,但这两种方法都显示出随着进一步训练的收益递减。
Foundation Models
基础模型代表了AI模型的快速发展和流行类别。经过大量数据集的训练,它们是通用的,适用于许多下游应用程序。GPT-4、Claude 3和Llama 2等基础模型展示了非凡的能力,并越来越多地部署在现实世界的场景中。Ecosystem Graphs于2023年推出,是斯坦福大学的一项新社区资源,可跟踪基础模型生态系统,包括数据集、模型和应用程序。本节使用生态系统图中的数据来研究基础模型随时间的变化趋势。
Model Release
可以通过不同的方式访问基础模型。没有访问模型,如Google的PaLM-E,只能由开发人员访问。受限访问模型,如OpenAI的GPT-4,通常通过公共API提供对模型的有限访问。开放模型,如Meta的Llama 2,完全释放模型权重,这意味着模型可以修改和自由使用。图1.3.13显示了自2019年以来按访问类型划分的基础模型总数。近年来,基金会车型数量大幅增长,自2022年以来增长了一倍多,自2019年以来增长了近38倍。在2023年发布的149款基础车型中,98款开放,23款受限,28款不可访问。
2023年,大多数基础模型以开放获取方式发布(65.8%),其中18.8%无法访问,15.4%访问受限(图1.3.14)。2021年以来,开放获取发布的车型占比大幅提升。
Organizational Affiliation
图1.3.15显示了自2019年以来基金会模型的起源。2023年,大部分基础模型(72. 5%)来自行业。2023年仅有18.8%的基金会模型来源于学术界。自2019年以来,越来越多的基础模型来自工业。
图1.3.16突出显示了2023年发布的各种基础模型的来源。谷歌推出了最多的模型(18),其次是Meta(11)和微软(9)。2023年发布最多基础模型的学术机构是加州大学伯克利分校(3)。
自2019年以来,谷歌已经发布了最多的基础模型,共有40个,其次是OpenAI,有20个(图1.3.17)。清华大学在非西方院校中脱颖而出,有7个基金会模型发布,而斯坦福大学是美国学术机构中的佼佼者,有5个发布。
National Affiliation
鉴于基金会模型相当代表前沿人工智能研究,从地缘政治的角度来看,了解其国家关系非常重要。图1.3.18、1.3.19和1.3.20显示了各种基金会模型的国家关系。与本章前面介绍的著名模型分析一样,如果一个模型的研究人员隶属于总部设在该国的机构,则该模型被视为隶属于该国。2023年,世界上大多数基金会模型来自美国(109),其次是中国(20)和英国(图1.3.18)。自2019年以来,美国一直领先于大多数基金会模型(图1.3.19)。
图1.3.20描述了自2019年以来发布的基础模型的累计数量,并归因于各个国家。自2019年以来发布的基础模型数量最多的国家是美国(182),其次是中国(30)和英国(21)。
Training Cost
在关于基础模型的讨论中,一个突出的话题是它们的推测成本。虽然人工智能公司很少透露训练模型所涉及的费用,但人们普遍认为,这些费用高达数百万美元,而且还在不断上升。例如,OpenAI的首席执行官Sam Altman提到GPT-4的培训成本超过1亿美元。培训费用的增加实际上将传统上的人工智能研究中心大学排除在开发自己的前沿基础模型之外。作为回应,政策举措,如拜登总统关于人工智能的行政命令,试图通过创建国家人工智能研究资源,为工业界和学术界之间创造公平的竞争环境,这将为非工业界提供进行更高水平人工智能研究所需的计算和数据。
了解训练人工智能模型的成本很重要,但有关这些成本的详细信息仍然很少。人工智能指数是去年出版的第一批提供基础模型培训成本估计的指数之一。今年,人工智能指数与人工智能研究机构Epoch AI合作,大幅提高和巩固其人工智能培训成本估计的稳健性。9为了估计尖端模型的成本,Epoch团队分析了培训时间,以及培训硬件的类型,数量和利用率,使用与模型相关的出版物,新闻稿或技术报告中的信息。
图1.3.21可视化了与选定AI模型相关的估计训练成本,基于云计算租赁价格。人工智能指数估计证实了近年来模型培训成本大幅增加的怀疑。例如,在2017年,最初的Transformer模型引入了几乎所有现代LLM的基础架构,培训成本约为900美元。11 RoberTa Large于2019年发布,在SQuAD和GLUE等许多规范理解基准上取得了最先进的结果,培训成本约为160,000美元。快进到2023年,OpenAI的GPT-4和谷歌的Gemini Ultra的培训成本估计分别约为7800万美元和1.91亿美元。
图1.3.22显示了AI指数估计的所有AI模型的训练成本。如图所示,模型培训成本随着时间的推移急剧增加。
正如之前的AI指数报告所确定的那样,AI模型的训练成本与其计算需求之间存在直接相关性。如图1.3.23所示,具有更大计算训练需求的模型的训练成本要高得多。
1.4 AI Conferences
人工智能会议是研究人员展示他们的发现并与同行和合作者建立网络的重要平台。在过去的二十年里,这些会议在规模、数量和声望上都有所扩大。本节探讨了出席主要人工智能会议的趋势。
Conference Attendance
图1.4.1显示了自2010年以来人工智能会议的出席情况。在出席人数下降之后,可能是由于转向完全面对面的形式,人工智能指数报告称,从2022年到2023年,会议出席人数将增加。具体而言,去年的总出勤率上升了6.7%。自2015年以来,每年的参会人数增加了约5万人,这不仅反映了人们对人工智能研究的兴趣日益浓厚,也反映了新的人工智能会议的出现。
神经信息处理系统(NeurIPS)仍然是出席人数最多的人工智能会议之一,2023年吸引了约16,380名与会者(图1.4.2和图1.4.3)。在主要的人工智能会议中,NeurIPS,ICML,ICCV和AAAI的出席人数逐年增加。然而,在过去的一年里,CVPR,ICRA,ICLR和IROS的出席人数略有下降。
1.5 Open-Source AI Software
GitHub是一个基于Web的平台,使个人和团队能够托管,审查和协作代码存储库。GitHub被软件开发人员广泛使用,它促进了代码管理、项目协作和开源软件支持。本节利用GitHub的数据,深入了解学术出版物数据中没有反映的开源AI软件开发的更广泛趋势。
GitHub用于识别AI相关项目的方法在过去一年中有所发展。为了对AI项目进行分类,GitHub已经开始从最近发表的研究论文中整合生成AI关键词,这与之前一篇论文中的详细方法不同。这个版本的AI索引是第一个采用这种更新方法的。此外,上一版的AI指数利用了经合组织进行的GitHub AI项目的国家级映射,这取决于自我报告的数据-这种方法的覆盖率随着时间的推移而下降。今年,AI指数采用了GitHub的地理映射,利用服务器端数据进行更广泛的覆盖。因此,这里提供的数据可能与报告早期版本的数据不完全一致。
Projects
GitHub项目由一系列文件组成,包括源代码、文档、配置文件和图像,它们共同组成了一个软件项目。图1.5.1查看了GitHub AI项目的总数随时间的变化。自2011年以来,人工智能相关的GitHub项目数量持续增长,从2011年的845个增长到2023年的约180万个。
图1.5.2报告了自2011年以来按地理区域划分的GitHub AI项目。截至2023年,GitHub AI项目中有很大一部分位于美国,占贡献的22.9%。印度是第二大贡献者,占19.0%,其次是欧盟和英国,占17.9%。值得注意的是,自2016年以来,美国开发人员在GitHub上的AI项目比例一直在稳步下降。
Stars
GitHub用户可以通过"关注"一个存储库来表示他们对它的兴趣,这个功能类似于在社交媒体上喜欢一个帖子,这意味着对开源项目的支持。最受欢迎的存储库包括TensorFlow、OpenCV、Keras和PyTorch等库,它们在AI编码社区的软件开发人员中广受欢迎。例如,TensorFlow是一个用于构建和部署机器学习模型的流行库。OpenCV是一个为计算机视觉提供各种工具的平台,例如对象检测和特征提取。去年,GitHub上人工智能相关项目的星级总数显著增加,从2022年的400万增加到2023年的1,220万,增加了两倍多(图1. 5. 3)。GitHub明星的急剧增加,沿着之前报道的项目增加,突显了开源AI软件开发的加速增长。
2023年,美国获得了最多的GitHub星,总数为1050万(图1.5.4)。所有主要的地理区域,包括欧盟、英国、中国和印度,都看到了授予其所在国家项目的GitHub之星总数的逐年增长。
Appendix
AI Conference Attendance
人工智能指数于2023年联络了多个人工智能会议的主办方,并要求他们提供总出席人数的资料。一些会议在网上公布了他们的出席人数;在这种情况下,AI指数使用了这些报告的总数,而没有与会议组织者联系。
CSET
安全与新兴技术中心(CSET)是乔治城大学沃尔什外交学院内的一个政策研究组织,致力于安全与技术交叉领域的数据驱动研究,为政策界提供无党派分析。有关CSET如何分析文献计量和专利数据的更多信息,请参阅Emerging Technology Observatory网站上的Country Activity Tracker(CAT)文档。1使用CAT,用户还可以与国家文献计量、专利和投资数据进行交互。
CSET合并学术文献语料库出版物
Sources
CSET的学术文献合并语料库结合了来自Clarivate的Web of Science,OpenAlex,The透镜,Semantic Scholar,arXiv和Papers With Code的不同出版物。
更新:CSET合并语料库的学术文献来源列表与前几年相比有所变化,包括OpenAlex,透镜和语义学者,并排除了数字科学的维度和中国国家知识基础设施(CNKI)。
Methodology
为了创建合并的语料库,CSET使用出版物元数据对列出的源进行重复数据删除,然后组合链接出版物的元数据。为了分析人工智能出版物,CSET使用了自2010年以来出版的该语料库的英语子集。CSET的研究人员开发了一个分类器,通过利用arXiv存储库来识别与AI相关的出版物,作者和编辑可以按主题标记论文。
更新:AI分类器是从前几年使用的版本更新的; Dunham,Melot和Murdick 4描述了以前实现的分类器; Schoeberl,Toney和Dunham描述了本分析中使用的更新分类器。CSET将分析语料库中的每一篇出版物与来自Microsoft Academic Graph(MAG)分类法的研究领域模型的预测进行了匹配,该模型产生了描述已发表研究领域的分层标签和相应的分数。5 CSET研究人员确定了自2010年以来AI相关出版物语料库中最常见的研究领域,并将所有其他领域的出版物记录为"其他AI"。然后,英语AI相关出版物按其最高得分领域和出版年份进行统计。
更新:对咨询小组研究领域的分配方法进行了更新,与前几年使用的方法不同。Toney和Dunham描述了本分析中使用的研究分配流程领域;前几年使用原始MAG实现。CSET还提供了与每个国家相关的人工智能相关工作的出版物数量和逐年引用情况。如果出版物至少有一位作者的组织关系位于该国,则该出版物与该国有关联。如果没有观察到的国家,则出版物将收到"未知/缺失"国家标签。引用计数并不适用于所有出版物;那些没有计数的出版物不包括在引用分析中。在2010年至2022年期间发表的英文AI论文中,超过70%有引用数据。
此外,出版物按年份和出版物类型(例如,学术期刊文章、会议论文)。如上所述,这些出版物类型按所属国家分列。CSET还提供了出版物附属部门,如在国家归属分析中,这些部门通过作者的附属关系与出版物相关联。并不是所有的附属机构都以部门为特征; CSET研究人员主要依靠ROR来实现这一目的,并不是所有的组织都可以在ROR中找到或与ROR相关联。CSET将跨部门合作计算为每份出版物的作者之间不同的部门对。合作只计算一次:例如,如果一个出版物有两个作者具有学术联系,两个作者具有行业联系,它被视为一个单一的学术-行业合作。
CSET的AI和机器人专利数据集
Source
CSET的人工智能专利数据集由CSET和1790 Analytics开发,包括来自The透镜、1790 Analytics和EPO的PATSTAT的数据。与人工智能和机器人技术的开发和应用相关的专利通过其CPC/IPC代码和关键词进行识别。
Methodology
在这项分析中,专利按年份和国家分组,然后在"专利族"一级进行计数。根据首次提交专利的国家或申请局(例如,如果一项专利于2020年1月1日向美国专利商标局提交,然后于2020年1月2日向德国专利局提交,则该专利将被归类为美国发明人的专利)。8请注意,如果发明人在同一个第一个申请日期在多个国家/地区提交了专利,则同一专利可能会有多个国家/地区(但不是年份)归属于它(例如,如果一项专利于2020年1月1日向美国专利商标局提交,然后于2020年1月1日向德国专利局提交,则该专利被归类为美国发明人的专利和德国发明人的专利。此外,在WIPO(世界知识产权组织)、EP(欧洲专利组织)、EA(不属于欧盟的西班牙特区)等超国家组织申请的专利也属于"世界其他地区"。
Ecosystems Graph Analysis
为了跟踪AI基础模型在各国的分布情况,AI Index团队采取了以下步骤:
- 生态系统图的快照于二零二四年一月初拍摄。
- 基础模型的作者根据与模型相关的论文/技术文档中的从属关系归属于国家。对于国际组织,作者归属于该组织总部所在国,除非指明更具体的地点。
- 所有里程碑出版物都在时间段内聚合(例如,每月或每年)与国家贡献加起来,以确定每个国家在每个时间段内对具有里程碑意义的人工智能研究的贡献。
- 不同国家的捐款随着时间的推移进行比较,以确定任何趋势。
Epoch Notable Models Analysis
人工智能预测研究组织Epoch维护着一个里程碑式的人工智能和ML模型的数据集,沿着关于它们的创建者和出版物的附带信息,如它们的(合作)作者列表、引用数量、完成的人工智能任务类型以及训练中使用的计算量。这些论文作者的国籍对地缘政治人工智能预测具有重要的启示作用。随着各种研究机构和科技公司开始生产先进的ML模型,未来AI发展的全球分布可能会发生转移或集中在某些地方,这反过来又会影响地缘政治格局,因为AI有望在不久的将来成为经济和军事力量的关键组成部分。为了跟踪AI研究贡献在各国里程碑式出版物上的分布,根据以下方法对Epoch数据集进行编码:
- 数据集的快照于2024年1月1日拍摄。这包括关于地标模型的论文,使用重要性,相关性和唯一性的纳入标准进行选择,如计算趋势数据集文档中所述。
- 作者根据他们在论文中的从属关系归属于国家。对于国际组织,作者归属于该组织总部所在国,除非指明更具体的地点。
- 所有里程碑出版物都在时间段内聚合(例如,每月或每年)与国家贡献加起来,以确定每个国家在每个时间段内对具有里程碑意义的人工智能研究的贡献。
- 不同国家的捐款随着时间的推移进行比较,以确定任何趋势。
GitHub
Identifying AI Projects
GitHub与来自哈佛商学院、微软研究院和微软AI for Good Lab的研究人员合作,根据Gonzalez、齐默尔曼和Nagappan(2020年)以及Dohmke、Iansiti和理查兹(2023年)的方法,分别使用与AI/ML和生成AI相关的主题标签,沿着"机器学习"、"深度学习"、"机器学习"、"机器学习"或者"人工智能"GitHub通过依赖于Python的PyTorch、TensorFlow或OpenAI库的存储库进一步扩展了数据集。
Mapping AI Projects to Geographic Areas
公共人工智能项目使用IP地址地理位置映射到地理区域,以确定每年项目所有者的模式位置。每个项目所有者在与GitHub交互时都会根据他们的IP地址分配一个位置。如果项目业主在一年内改变了地点,项目的地点将根据该年内每天抽样调查的业主的模式地点确定。此外,即使项目所有人当天没有进行任何活动,项目所有人的最后已知位置也会每天结转。例如,如果一个项目所有人在美国境内开展活动,然后有六天不活动,则该项目所有人将被视为在这七天内在美国。
Training Cost Analysis
为了创建成本估计数据集,Epoch数据库被过滤为在大规模ML时代发布的模型,这些模型在以发布日期为中心的两年窗口中高于训练计算的中位数。这过滤了最大规模的ML模型。根据这些标准,有138个合格系统。在这些系统中,有48个系统有足够的信息来估计培训费用。对于选定的ML模型,训练时间以及训练硬件的类型、数量和利用率是根据出版物、新闻稿或技术报告确定的。这些模型使用的计算硬件的云租赁价格是从云供应商网站的在线历史档案中收集的。
培训成本是根据硬件类型、数量和时间估算的,方法是将每小时的云租赁成本率(培训时)乘以硬件小时数。这产生了使用作者当时训练相同模型所使用的相同硬件训练每个模型的成本。然而,一些开发人员购买硬件而不是租用云计算机,因此开发人员的真实成本可能会有所不同。在估计这些模型的培训成本时遇到了各种挑战。通常,开发人员不会透露培训的持续时间或使用的硬件。在其他情况下,云计算定价不适用于硬件。培训成本趋势的调查将在即将发布的Epoch报告中继续进行,包括一个包含更多模型和硬件价格的扩展数据集。
选择的租赁成本率是模型开发人员使用的硬件和云供应商的最新公布价格,按三年承诺租赁率计算,减去培训时间和发布日期后的两个月。如果无法获得此价格,则使用最相似的价格:不同日期的相同硬件和供应商,否则来自不同云供应商的相同硬件。如果三年承诺租金不可用,则根据给定云供应商的经验平均折扣从其他租金中估算。如果确切的硬件类型不可用,例如,"NVIDIA A100 SXM4 40 GB",则使用概括,例如,NVIDIA A100。
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!
如有侵权,请联系我删除。xingyezn@163.com