吴恩达：《State of AI report》展现2024的主要趋势和突破（二）

万字长文，2024AI行业的科研角力

©作者| Zhongmei

来源| 神州问学

前言

吴恩达的网站在十月中旬发表了一篇名为《A Year of Contending Forces》的文章，该文章是围绕着一个名为《State of AI Report - 2024》的年度报告的总结和点评。该报告由Nathan Benaich和Air Street Capital团队制作，这是该报告的第七年，新报告记录了过去一年推动AI发展的强相互作用力：开源与专有技术、公共与私人融资、创新与谨慎，汇聚了来自于2024年的研究论文、新闻文章、财报等的亮点。本文将对原报告内容进行解读。今天将从报告的第52页开始，之前的内容请看连载第一篇

吴恩达：《State of AI report》展现2024的主要趋势和突破（一）

为什么觉得这篇报告重要？

该报告是从投资者的角度审视了上次报告之后的一年时间里AI的发展，力图分析其中的变化并挖掘出趋势。作者们深入研究了今年的研究发现、商业交易和政治动态，希望以此为下个一年的AI提供全面的分析。

报告中的关键信息

报告中考虑了以下关键维度：

●研究：技术突破及其能力。

●行业：AI的商业应用领域及其商业影响。

●政治：AI的监管，其经济影响以及AI不断演变的地缘政治。

●安全：识别和缓解未来高能力AI系统可能对我们造成的灾难性风险。

●预测：未来12个月会发生的事情

由于报告《State of AI Report - 2024》篇幅长达210+页，本篇将只涵盖研究章节的后半部分内容和行业章节的开篇，余下的会在接下来陆续发出。

研究

●无机大模型

在无机材料方面也有基础模型的应用，为了确定物质的性质及其在反应中的行为，需要原子尺度的模拟。这些模拟目前依赖于密度泛函理论（DFT），这种方法功能强大，但速度慢且计算成本高。虽然计算力场（原子间势）的替代方法速度更快，但其精度往往不足以满足需求，尤其是在反应事件和相变方面。

在2022年，等变消息传递神经网络（MPNN）结合高效的多体消息（MACE）在NeurIPS会议上被提出。到了现在的2024，作者们提出了MACE-MP-0，这是一种使用材料项目轨迹数据集（Materials Project Trajectory Dataset，MPtrj）在MACE架构上训练的模型。（MPtrj数据集包含数百万个结构、能量、磁矩、力和应力）MACE-MP-0模型，通过同时考虑四个原子间的相互作用，将消息传递层的数量减少到两个，它还有一个特点是仅有选择性的在部分网络中使用非线性激活。目前，MACE-MP-0能够进行广泛的分子动力学模拟，包括固态、液态和气态。

【Source: [2401.00096] A foundation model for atomistic materials chemistry (MACE-MP-0)

Source: [2206.07697] MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields (MACE from 2022)】

●蛋白质折叠

针对膜受体的药物开发中，对可溶形式中不存在但在膜环境中存在的蛋白质进行表征和生成结构是具有挑战性的。同时，设计大且包含非局部拓扑的蛋白质折叠也很困难。AF2和序列模型能否解决这一问题，使药物设计师能够接触到更大的可溶蛋白组以及以前无法没有的折叠方式？为此，作者首先使用反向AF2模型，根据目标折叠结构生成初始序列，随后通过ProteinMPNN进行优化，然后再由AF2重新预测并根据与目标结构的相似性进行过滤。这个AF2-MPNN流程在三个具有治疗用途的挑战性折叠（IGF、BBF和TBF）上进行了测试。该流程还能够生成膜专有折叠的可溶性类似物，可能大大加速针对膜结合受体蛋白的药物发现。

【Source: Computational design of soluble and functional membrane protein analogues | Nature 】

●脑机大模型

深度学习最初受到神经科学的启发，现在正逐渐用于建模大脑本身，比如从功能性磁共振成像（fMRI）中学习脑活动。BrainLM 是一个基于6700小时的人脑活动记录训练的基础模型，这些记录通过功能性磁共振成像（fMRI）生成，fMRI能够检测血氧水平的变化。该模型学习重建被遮蔽的时空脑活动序列，并且能够泛化到未见过的分布。该模型可以进行微调，以更好地预测临床变量，例如年龄、神经质、创伤后应激障碍（PTSD）和焦虑症评分，表现优于图卷积模型或长短期记忆（LSTM）模型

【Source:www.biorxiv.org/content/10....

另一种用途是"重构你所见"，MindEye2 是一个生成模型，它将fMRI活动数据映射到丰富的 CLIP 空间，从中，经过微调的 Stable Diffusion XL 会重构人所见的图像。该模型在Nature Scenes数据集上训练得到的，这是一个基于8个受试者收集的 fMRI 数据集，受试者在观看 COCO 数据集中数百个自然刺激时，以每个刺激持续3秒钟的频率，被记录了30到40小时期间大脑的反应。

【Source: [2403.11207] MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data (MindEye 2)】

还有一种用途是"表达你所想"，通过可植入的微电极从大脑记录中解码语音，就可以为言语受损的患者提供沟通能力。最近的一个案例是，一名45岁的肌萎缩侧索硬化症（ALS）患者因四肢无力和严重的言语运动损伤，接受了微电极植入手术。电极阵列记录了患者在引导提示式和非结构化对话环境中说话时的神经活动。最初，他的皮层神经活动被解码为一个包含50个单词的小词汇表，通过预测最可能的英语音素来实现解码，准确率达到99.6%。音素序列通过循环神经网络（RNN）被组合成单词，通过进一步训练，扩展到一个包含125,000个单词的大词汇表。

【Source:www.nejm.org/doi/full/10... 】

●气象大模型

传统的大气模拟方法，比如数值性的天气预测，往往成本高昂且无法有效利用多样且稀缺的大气数据模式，这确实基础模型很适配的领域。微软研究人员创建了一个名为Aurora的基础模型，能够预报多种气象问题，包括全球空气污染和高分辨率的中期天气模式。它还可以通过对模拟大气动态的通用学习，自适应新任务。该模型的参数数量为13亿，预训练数据来自六个数据集中超过100万个小时的天气和气候数据，包括预报、分析、再分析和气候模拟数据。模型将异构输入，编码为标准的覆盖空间和压力层的标准三维表示，通过视觉transfomer在推理时对时间的演化，最后解码为具体的预测。Auora是第一个能预测大气化学物质（六种主要空气污染物，例如臭氧、一氧化碳）的模型，它涉及数百个刚性方程，表现优于数值模型，且计算速度也比使用数值预测的综合预报系统快5000倍。

【Source: Introducing Aurora: The first large-scale foundation model of the atmosphere - Microsoft Research

Source: [2405.13063] Aurora: A Foundation Model of the Atmosphere 】

●AGI基准

Keras的创始人François Chollet在2019年创建了一个名为ARC-AGI的基准。该基准被用于衡量模型的泛化能力，重点关注对人类容易而对AI来说困难的任务。这些任务通常需要很少的先验知识，而是强调视觉问题解决和谜题解决这些不易被记忆影响的任务。历史上，LLM在该基准上的表现较差，最高仅达到约34%。Chollet与Zapier联合创始人Mike Knoop合作推出了ARC奖，提供100万美元的奖金基金，奖励在ARC-AGI基准上取得重大进展的团队。Chollet对LLM在其训练数据之外泛化到新问题的能力持怀疑态度，希望这个奖项能激励新的研究方向，促使更接近人类的智能形式的出现。目前的最高分是Minds AI团队取得的46分（低于目标的85分），他们的方法基于LLM，动态主动推理，利用测试任务示例和合成数据进行微调，以提高性能。

【Source: arcprize.org/ 】

●LLM的规划&模拟能力

在新任务中，当LLM无法依赖记忆和检索时，其性能往往会下降。这表明在没有外部帮助的情况下，仍然难以能力泛化。即使是像GPT-4这样的先进LLM，在基于文本的游戏中，对模拟状态进行可靠的转换也存在困难，尤其是在环境驱动的变化上。LLMs在因果关系、物理和目标持久性等方面的一致性把握能力不足，这使其在世界建模方面表现较差（即便是在相对简单的任务中）。还有模拟领域的研究发现，LLM对直接行动结果（例如水槽打开）的准确预测率约为77%，但在处理非直接性环境影响（例如在水槽中用水装满杯子）时，仅能达到50%的准确率。还有些研究评估了LLM在规划领域的表现，比如Blocksworld和Logistics。GPT-4生成可执行计划的成功率仅为12%，然而，采用迭代提示和外部验证后，15轮后，Blocksworld的计划准确率达到了82%，Logistics的计划准确率为70%。当采用o1重新运行时，性能有跳跃式提升，但仍远未完美。

【Source: arxiv.org/abs/2406.06... (LLMs and text-based world simulation)

Source: arxiv.org/abs/2402.01... (LLM planning)】

●三思而后行？

LLM能学会在"发言"前思考吗？斯坦福大学与Notbad AI团队合作推出的Quiet-STaR模型在预训练过程中生成内部推理，利用并行采样算法和自定义元标记来标记这些"思考"的起始和结束。该方法采用一种受强化学习启发的技术来优化生成推理的有效性，通过奖励那些能提高模型预测未来token能力的推理来进行优化。Google Deepmind则是着眼于推理过程，实验表明，在许多问题上，在测试时策略性地增加计算量可能比使用更大的预训练模型更有效。此外，斯坦福和牛津的团队也研究了推理计算的扩展，发现重复采样能显著提高覆盖率。他们建议使用较弱且成本更低的模型多次尝试，可以超过一次性使用较强、成本更高的模型所获得的结果。

【Source: arxiv.org/abs/2403.09... (Quiet-STaR)

Source: arxiv.org/abs/2408.03... (Scaling LLM Test-Time Compute)】

●LLM的推理能力

提升LLM推理能力的一种途径是采用开放式的方法使其具备生成新知识的能力，因此开放式问题逐渐成为一个有前景的发展方向。Google DeepMind团队提出了开放式系统的框架，称其能够"持续生成对观察者来说既新颖又可学习的产物"。在论文中，他们概述了实现开放式基础模型的潜在路径，包括强化学习、自我改进、任务生成和进化算法。在自我改进方面，提出了STRATEGIST，这是一种让LLM学习多智能体游戏中新技能的方法。研究人员采用了一种双层树搜索方法，将高层策略学习与低层模拟自我对弈相结合，以获得反馈。该方法在纯策略游戏和《阿瓦隆》中的行动规划和对话生成方面优于强化学习和其他基于LLM的方法。

【Source: arxiv.org/abs/2406.04... (Google DeepMind position paper)

Source:openreview.net/forum?id=UH... (Strategist)】

这种隐含的推理能力是否一直就在我们面前？经过长时间训练到过拟合点之后（即所谓的"顿悟"现象），一些研究人员提出观点，transformer通过组合和比较任务，能学习到基于参数的推理能力。俄亥俄州立大学的研究人员指出，经过"充分顿悟"的transformer在具有大搜索空间的复杂推理任务上表现优于当时的SOTA模型（如GPT-4-Turbo和Gemini-1.5-Pro）。他们通过机制分析研究了模型在顿悟过程中的内部运作，揭示了针对不同任务的不同泛化回路。然而，他们发现，虽然完全顿悟的模型在比较任务上（如基于原子事实比较属性）表现出色，但在组合任务分布外的泛化能力上表现较弱。于是有个疑问诞生了：这些是否真的是有意义的推理能力，还是换一种方式的记忆的问题。但是研究人员相信，通过改进transformer的跨层记忆共享功能，或许可以解决这一问题。

【Source: arxiv.org/abs/2405.15...

与此同时，程序搜索也为数学科学领域带来新发现，出现了LLM（大型语言模型）和进化算法的结合：FunSearch使用LLM生成和修改程序，并由评估函数指导评分，以衡量解决方案的质量。与直接寻找解决方案不同，程序搜索使其能够发现复杂对象或复杂策略的简洁、可解释表示。这种形式的程序搜索被Chollet认为是解决ARC挑战最有潜力的途径之一。Google DeepMind团队将其应用于极值组合学中的帽集问题和在线选择问题。在这两种情况下，FunSearch都发现了超越人类设计的新方案。

【Source: www.nature.com/articles/s4... 】

●LM和强化学习（RL）

为了使智能体在实际应用中有用，它们需要对现实世界中的随机性具有鲁棒性，而这一直是SOTA（最先进）模型的弱项。不过我们开始看到一些进展。

一方面，强化学习推动视觉语言模型（VLM）性能提升：DigiRL是一种新颖的自主强化学习方法，专门用于训练在真实环境下控制安卓设备的智能体。该方法包括两阶段过程：先进行离线强化学习，然后进行离线到在线的强化学习转换。它在Android-in-the-Wild数据集上的任务成功率达到了62.7%，相比之前的最先进模型有了显著提升。

【Source: digirl-agent.github.io/ 】

同时，LLM提升了强化学习的表现。2019年，Uber发布了Go-Explore，这是一种强化学习（RL）智能体，通过记录已发现的状态并反复返回和从有前景的状态进行探索，解决了难以探索的问题。到了2024年，LLM进一步提升了它的性能。不同于原版Go-Explore使用的手工设计启发式方法，Intelligent Go-Explore（IGE）使用LLM来指导状态选择、动作选择和档案更新。这使得在复杂环境中的探索更加灵活和智能化。这种方法使IGE能够识别并利用有前景的发现，这是开放式学习系统的关键方面。IGE在数学推理、网格世界和基于文本的冒险游戏中显著超过了其他LLM智能体的表现。将GPT-4替换为GPT-3.5后，所有环境中的性能显著下降，这表明IGE的表现与其所基于的语言模型的能力相关。

【Source: arxiv.org/abs/2405.15... 】

不知道有谁还记得帮助AlphaGo取得成功的蒙特卡罗树搜索算法（Monte Carlo Tree Search），如今为了改进规划，MCTS等方法正逐渐回归主流。初步结果显示前景光明，但这是否足够？MultiOn和斯坦福大学将LLM与MCTS相结合，同时加入了自我批评机制和直接偏好优化，以从不同的成功和失败标准中学习。他们发现这使得Llama-3 70B在实际的预约预定场景中的零样本准确率从18.6%提升到81.7%，经过一天的数据收集后，通过在线搜索这个数值提高到95.4%。这引出一个长期性关键问题：下一个token的预测损失这种做法是否过于精细化，因为它过于专注于单个词汇，可能会限制RL和MCTS实现更agentic的行为，从而阻碍了更广泛、更具战略性解决方案的探索。

【Source: arxiv.org/abs/2408.07... 】

训练强化学习（RL）代理的一个主要瓶颈是训练数据的匮乏。传统方法，如转换已有环境（如Atari）或手动构建环境，劳动密集且难以扩展。那么基础模型能否使大规模训练RL智能体更容易？Genie（一项在2024年ICML会议上获最佳论文奖的模型）是一种能够生成可控动作的虚拟世界的世界模型。它分析了30,000小时的2D平台类游戏视频，学习压缩视觉信息并推断驱动帧间变化的动作。通过从视频数据中学习隐动作空间，Genie无需显式动作标签即可处理动作表示，这使其出位于其他世界模型。Genie不仅能够想象全新的交互场景，还展现了极大的灵活性：它可以接收各种形式的提示，如文本描述或手绘草图，并将其转化为可操作的环境。这种方法的应用场景不仅限于游戏，该团队成功地将游戏模型中的超参数应用于机器人数据，而无需进行微调。

【Source: arxiv.org/abs/2402.15... 】

相似的还有，帝国理工学院和不列颠哥伦比亚大学，OMNI-EPIC项目使用LLM来创建理论上无限的强化学习（RL）任务和环境流，以帮助智能体逐步构建先前学到的技能。该系统生成可执行的Python代码，可实现每个任务的模拟环境和奖励函数，并使用一个模型来评估新生成的任务是否足够新颖和复杂。

【Source: arxiv.org/abs/2405.15...

●AI能代替科学家吗？

新实验室，Sakana AI，专注于增强当前前沿模型的创造力。他们其中一篇论文探讨了使用基础模型来自动化研究工作本身。"The AI Scientist" 是一个端到端的框架，旨在自动生成研究想法、实施它和撰写研究论文。在获得初始模板后，它会头脑风暴出新的研究方向，然后执行实验并撰写研究结果。研究人员声称，该由LLM驱动的审稿人能以接近人类的准确度来评估生成的论文。研究人员使用该系统生成了关于扩散、语言建模和"grokking"的示例论文。这些论文乍一看很有说服力，但仔细审查后发现了一些缺陷，并且，该系统偶尔会表现出不安全的行为，例如导入不熟悉的Python库并编辑代码以延长实验时间。

【Source: sakana.ai/ai-scientis... 】

●集成方法推动代码性能的提升

Meta 的 TestGen-LLM 结合了多个LLM、提示词和配置，利用不同模型的优势来提高 Instagram 和 Facebook 上 Android 代码的单元测试覆盖率。它采用可靠方法，筛选生成的测试以确保它们能成功构建、稳定通过并提高覆盖率，然后才推荐使用。这是首次在行业大规模部署中将 LLM 与代码改进的可验证保证相结合的方式，解决了在软件工程背景下关于 LLM 幻觉和可靠性的担忧。在实际应用中，TestGen-LLM 提高了大约 10% 所应用测试类的覆盖率，其中 73% 的推荐被开发人员接受。

【Source: arxiv.org/abs/2402.09... 】

●自动驾驶拥抱更多模态

Wayve 的 LINGO-2 是其第二代视觉-语言-动作模型，与前代不同，该模型不仅能够生成实时驾驶解说，还可以将语言解释与决策和动作直接关联起来，从而控制汽车。同时，该公司正在使用生成模型，利用真实世界的细节来增强模拟器。PRISM-1 仅利用摄像头的输入数据来创建动态驾驶场景的逼真 4D 模拟。它能够准确重建复杂的城市环境，包括行人、自行车手和车辆等移动元素，无需依赖 LiDAR 或 3D 边界框，从而实现更高效的测试和训练。

【Source:wayve.ai/thinking/li...

Source: wayve.ai/thinking/pr... 】

●Segment Anything扩展到了视频领域

去年Meta的Segment Anything，展现了其在任何提示下识别和分割图像的能力，给人留下了深刻印象。今年 7 月，他们发布了 Segment Anything 2（SAM 2），更令人惊叹。Meta使用其自有的数据集（SA-V）进行训练，将 SAM 扩展至视频分割，该数据集包含 51,000 个真实世界的视频和 600,000 个时空掩码，和模型已在 Apache 2.0 许可证下发布。为了构建同时适用于视频和图像的统一模型，Meta 进行了若干改进。例如，他们引入了一个记忆机制来跟踪跨帧的物体对象，并添加了遮挡处理模块以应对消失或重新出现的对象。结果表明，它在图像分割中的准确度比 SAM1 更高且速度快 6 倍，同时能够以三分之一的交互次数超越此前领先的视频分割模型的准确度。不过，该模型在同时分割视频中的多个对象时效率较低，并且在处理较长的视频片段时可能表现不佳。

【Source: ai.meta.com/blog/segmen... 】

●机器人技术再度流行

图1. 2021（左）vs 2024（右）

大型实验室的加入使机器人技术终于再次流行起来，LLM 和 VLM 展示了它们在解决数据瓶颈和长期存在的可用性障碍方面的潜力。

谷歌 DeepMind 悄然崛起为机器人技术的领导者。尽管所有人都关注 Gemini，谷歌 DeepMind 团队在不断提升其机器人技术成果，提高了机器人的效率、适应性和数据收集能力。该团队开发了 AutoRT 系统，该系统使用视觉语言模型 (VLM) 进行环境理解，并使用语言模型 (LLM) 提供机器人可以执行的创造性任务列表。这些模型随后与机器人控制策略结合，帮助机器人在以前未见过的环境中快速部署。RT-Trajectory 通过视频输入增强了机器人学习。在演示数据集中，每段视频都会叠加一个机械手执行任务的 2D 草图，为模型学习提供了实用的视觉提示。Deepmind团队还提高了transformer的效率，SARA-RT 是一种新颖的"升级训练"方法，可以将预训练或微调过的机器人策略从二次注意力转换为线性注意力，同时保持训练质量。研究人员还发现，Gemini 1.5 Pro 的多模态功能和长上下文窗口使其成为通过自然语言与机器人互动的有效方式。

【Source: deepmind.google/discover/bl...

Source: arxiv.org/abs/2407.07... (multimodal instructions)】

Hugging Face 则在降低进入的门槛。历史上，与其他人工智能领域相比，机器人技术在开源数据集、工具和库方面显著缺乏，这使得进入该领域的门槛被人为地提高。Hugging Face 的 LeRobot 旨在弥合这一差距，提供预训练模型、由人类收集的演示数据集和预训练的演示，这个项目得到了社区广泛喜爱。

【Source: huggingface.co/lerobot 】

扩散模型也推动了策略和动作生成的改进。在图像和音频生成领域中，扩散模型已经非常成熟，而如今在生成机器人技术中的复杂动作序列方面也展现了有效性。多个研究团队正致力于弥补机器人学习中，高维观测空间与低维动作空间之间的差距。他们创建了一个统一的表示，使学习算法能够理解动作的空间含义。扩散模型在建模此类复杂、非线性、多模态分布方面表现出色，因为其迭代去噪过程会逐步优化动作或轨迹。尝试的方法有很多，比如，帝国理工学院和上海齐治研究院的研究人员选择了RGB图像，因为它们提供了丰富的视觉信息并与预训练模型兼容。加州大学伯克利分校和斯坦福大学的团队则利用了点云数据，因为它们提供了显式的三维信息。

【Source: arxiv.org/abs/2403.03... (3D Diffusion Policy)

Source: vv19.github.io/render-and-... 】

我们能否比现在更好地利用现有的现实世界机器人数据？现实世界数据的有限性，所以机器人策略常常因为缺乏通用性而受到限制。研究人员不再单纯寻求更多的数据，而是向现有数据中注入更多结构和知识。卡内基梅隆大学的一个团队提出了一种方法，涉及从人类视频数据中学习更多"可供性"信息，如手势、物体交互和接触点等。这些信息可用于微调现有的视觉表示，使其更适合机器人任务。这一方法在现实世界中的操作任务中不断提升表现。同时，加州大学伯克利分校和斯坦福大学的团队发现，链式思维推理也能产生类似的效果。与直接预测动作不同的是，增强模型在训练时先逐步推理计划、子任务和视觉特征，然后再决定动作，其中推理步骤的训练数据是利用LLM生成的。

【Source: arxiv.org/abs/2407.18... (Human affordances)

Source: arxiv.org/abs/2407.08... (Embodied chain-of-thought) 】

我们能否突破仿人机器人面临的数据瓶颈？通过依赖人类演示的模仿学习来建模人类行为的方式，虽然有效，但是极具挑战性，且很难大规模实施。于是，斯坦福大学提出了一些解决方案：HumanPlus 是一个完整的系统，旨在让仿人机器人从人类数据中学习。它结合了实时影子系统和模仿学习算法，影子系统使用单个 RGB 摄像头和低级策略，使人类操作者能够实时控制仿人机器人的整个身体。低级控制策略是在模拟中使用大量人类运动数据进行训练的，且无需额外训练即可转移到现实世界中。模仿学习组件则使系统能够高效地从影子数据中学习自主技能，它利用双目第一人称视角，将动作预测与前向动态预测结合起来。该系统在多种任务上展示了出色的表现，包括穿鞋、行走等复杂动作，仅需最多 40 次演示即可实现。

【Source: humanoid-ai.github.io/ 】

强势回归的还有机器狗。波士顿动力公司的Spot展示了具身AI在移动性和稳定性方面的进步，但它仍缺乏操作技能。研究人员现在正在解决这一问题。斯坦福大学和哥伦比亚大学的一个团队结合了现实世界的演示数据和在模拟中训练的控制器，专注于控制机器人的夹爪运动而非单个关节。这种方法简化了将操作技能从固定机械臂转移到移动机器人的过程。同时，加州大学圣地亚哥分校的一个团队开发了一个由两部分组成的系统：低级策略用于执行指令，高级策略用于生成基于视觉的指令，从而增强了机器人的操作能力。

【Source: arxiv.org/abs/2407.10... (Stanford/Columbia paper)

Source: arxiv.org/abs/2403.16... (UC San Diego paper)】

Apple Vision Pro 已成为机器人研究中不可或缺的工具。尽管目前消费者对Vision Pro的需求平淡，但它在机器人研究领域掀起了热潮。研究人员正在利用其高分辨率、先进的跟踪技术和强大的处理能力进行远程操作------即远程控制机器人运动和动作。像Open-TeleVision和Bunny-Vision Pro这样的系统使用它来实现多指机器人手的精确控制（前者远程控制距离达3000英里），相比以往的方法在复杂操作任务中表现出更好的性能。它们解决了实时控制、通过避免碰撞来保障安全，同时有效的双手协调。

【Source: arxiv.org/abs/2407.01... (Open-TeleVision)

Source: arxiv.org/abs/2407.03... (Bunny-Vision Pro)】

●医学领域

在医学领域，是否进行微调？去年，通过一个API调用的未经微调的GPT-4在某些医学知识基准测试中与谷歌的Med-PaLM 2表现不相上下，于是Gemini项目应运而生。Med-Gemini系列是用于医学的多模态模型，经过从Gemini Pro 1.0和1.5微调，使用了各种医学数据集，并整合了网络搜索以获取最新信息，该系列在MedQA上实现了91.1%的SOTA准确率，成功超越了GPT-4。在多模态任务（如放射学和病理学）中，Med-Gemini在7个数据集中的5个上设定了新的SOTA纪录。当问题中的质量错误被修正时，模型的表现有所提升，并且在其他基准测试中展现了强大的推理能力。它在从长篇电子健康记录（EHRs）中检索稀有发现方面（一项颇具挑战性的"大海捞针"任务）也取得了高精确度和召回率。在一项初步研究中，临床医生在大多数情况下对Med-Gemini的输出评价为等同或优于人类编写的示例。

【Source: arxiv.org/abs/2404.18...

Source: arxiv.org/abs/2405.03... 】

医学中的合成数据生成：高质量的医学影像数据集难以获取，不止如此，研究或商业产品的许可更难获得，同时还容易受到分布偏移的影响。然而，过去一年中，逼真的图像生成器已经在互联网上大量涌现。自然图像与医学影像在视觉和语义上有很大差异，那么，这些生成器是否可以被重新利用来生成用于模型训练的逼真医学影像？研究表明，通过联合微调Stable Diffusion的U-Net和CLIP文本编码器，使用大量真实的胸部X光片（CXR）数据集及对应的放射科医师报告，就可以生成高保真和概念正确的合成CXR扫描，这些合成的CXR已通过持证放射科医师的评估，可用于数据增强和自监督学习。但是，与其他模态一致，当使用纯合成数据进行训练时，监督分类性能会略有下降。此外，生成模型可以通过在训练数据集中添加填补代表性不足数据点的合成示例来提高医学分类器的公平性。

【Source: www.nature.com/articles/s4...

Source: www.nature.com/articles/s4... 】

●企业自动化将迎来以AI为核心的升级

传统的机器人流程自动化（RPA），以UiPath为代表，一直面临着高昂的设置成本、不稳定的执行以及繁重的维护负担。两种新方法，摩根大通的FlowMind和斯坦福大学的ECLAIR，利用基础模型来应对这些限制。FlowMind专注于金融工作流程，使用LLM通过API生成可执行的工作流程。在针对NCEN-QA数据集的实验中，FlowMind在工作流程理解上达到了99.5%的准确率。ECLAIR则采用更广泛的方法，使用多模态模型从演示中学习，并直接与各种企业环境中的图形用户界面（GUI）进行交互。在网页导航任务中，ECLAIR将完成率从0%提高到了40%。

【Source: arxiv.org/abs/2405.03... (ECLAIR)

Source: arxiv.org/abs/2404.13... (FlowMind)】

●科技公司vs学术

随着人工智能成为新的竞争战场，大型科技公司开始对其研究工作的细节保持神秘。自《State of AI Report》开始撰写以来的七年，前沿实验室首次显著减少了公开发表的研究数量，不过学术界正在加紧步伐。全球人工智能研究的力量平衡保持不变，但学术界正在崛起。

图2. 按国家划分的AI出版物比例(左）和AI出版水平的年度变化（右）

行业

●NVIDIA成为全球最强大的公司

随着对其硬件支持日益增长的生成型人工智能（Gen AI）工作负载的需求，所有主要实验室都依赖NVIDIA的硬件。其市值在6月突破了3万亿美元，在微软和苹果之后，成为第三家达到这一里程碑的美国公司。在第二季度业绩大爆发后，NVIDIA的市场地位看起来依然牢不可破。

NVIDIA的雄心壮志只增不减，它已经预订了大量新款Blackwell系列GPU的预售订单，并且正在积极争取政府客户。全新的Blackwell B200 GPU和GB200超级芯片相比于H100架构的Hopper，承诺会带来显著的性能提升。NVIDIA声称，它能比H100降低25倍的成本和能耗。作为NVIDIA实力的象征，每个主要AI实验室的CEO都在新闻稿中提供了支持性发言。尽管由于制造问题，Blackwell架构的推出被推迟，但NVIDIA仍然相信，到今年年底，它将从这款产品中获得数十亿美元的收入。NVIDIA的创始人兼CEO黄仁勋正在扩大宣传，阐述公司关于主权AI的愿景：他认为，所有政府都需要建立自己的LLM以保护国家遗产。

老牌竞争对手未能缩小差距，AMD和Intel已开始投资其软件生态系统，其中AMD通过ROCm（对标CUDA）向开源社区进行了大力宣传。然而，它们仍未开发出具有竞争力的替代方案来挑战NVIDIA的网络解决方案产品组合。AMD希望通过计划收购服务器制造商ZT Systems（价值49亿美元）来改变这一局面。同时，英特尔的硬件销售出现了下滑。在没有监管干预、研究范式的改变或供应链限制的情况下，NVIDIA的市场地位似乎稳如磐石。

图3. 三家公司2024年第二季度营收（左）和每股收益（右）

购买NVIDIA股票比投资对标它的初创竞争者要好得多。报告中回顾了自2016年以来在AI芯片挑战者身上投资的60亿美元，并假设如果投资者当时将这笔钱按当日价格购买了相同金额的NVIDIA股票，会发生什么。答案是显而易见的：这60亿美元，今天将值1200亿美元的NVIDIA股票（翻了20倍！），而它在初创公司中的投资则仅值310亿美元（5倍）。

图4. NAV: 挑战者 vs NVIDIA （市场定价和估值数据截至2024年10月9日。NAV = 净资产价值）

但并非每个人都认为股价只能一路上涨，有一些分析师和评论员指出，GPU的稀缺性正在下降，目前只有少数几家公司能够从以AI为主的产品中获得可靠的收入，甚至大科技公司的基础设施建设也不太可能足够庞大到能支撑公司当前的估值。但是，市场目前忽视了这些声音，似乎更倾向于认同早期特斯拉投资者詹姆斯·安德森（James Anderson）的观点，即NVIDIA在十年内可能会值"数十万亿美元"。

●A100集群 vs H100集群

大型NVIDIA A100 GPU集群的数量保持不变，因为行业将资金集中在H100和更新颖的Blackwell系统上，真正的大规模GPU集群增长来自于H100。目前最大的仍然是Meta的35万个H100集群，其次是X ai的10万个集群和特斯拉的3.5万个集群。同时，Lambda、Oracle和谷歌也在构建大型集群，总计超过7.2万块H100。包括Poolside、Hugging Face、DeepL、Recursion、Photoroom和Magic等公司也已建立了超过2万个H100容量的集群。此外，首批GB200集群已经上线（例如，瑞士国家超级计算中心的10,752个集群），而OpenAI预计将在明年年底之前拥有30万规模的集群。

图5. A100集群的规模（上）vs H100集群的规模（下）

●NVIDIA仍然是AI研究论文中的首选

图6. 各种芯片在论文中的使用量对比（y轴是对数）

根据去年的统计，NVIDIA在AI研究论文中的使用量是所有竞争对手的19倍。今年，这一领先优势缩小至11倍，部分原因是使用TPU的论文增长了522%（目前NVIDIA和TPU之间的差距为34倍）。我们还注意到，华为Ascend 910的使用增长了353%，大型AI芯片初创公司的增长为61%，以及苹果芯片的首次亮相。

图7. NVIDIA各型号芯片在论文中的使用量对比

A100的使用继续增长（同比增长59%），也与H100（+477%）和4090（+262%）一同增长，尽管后两者基数较低。V100（现已发布7年，-20%）的使用率仍然只有A100（现已发布4年）的一半，进一步证明了NVIDIA系统在AI研究中的长久生命力。

图8. 初创公司芯片在论文中的使用量对比

与此同时，在初创公司领域，Cerebras似乎在拉开与其他竞争者的差距，使用其晶圆规模系统的AI研究论文数量增长了106%。Groq最近推出了其LPU，并在去年首次出现在AI研究论文中。而Graphcore，在2024年中期被SoftBank收购。与它们共同的竞争对手NVIDIA不同，这些AI芯片初创公司大多已经从销售系统转向在开放模型上提供推理接口。

未完待续

本篇文章主要涵盖了报告的52~96页，下一篇会继续，内容会包括Nvidia、Google、OpenAI这些龙头为代表的行业研究分析总结。

《State of AI Report - 2024》原报告链接贴这里：Welcome to State of AI Report 2024