OpenAI 的五款新模型，Hugging Face 的开源机器人，美国收紧对 AI 芯片的出口管制，以及其他新闻...

本期 deeplearning.ai The Batch 探讨了 AI 辅助编程如何使开发者更轻松地跨语言工作，介绍了 OpenAI 发布的 GPT-4.1 系列（包括 GPT-4.1、GPT-4.1 mini、GPT-4.1 nano）和 o 系列（o3、o4-mini）推理模型，其中 GPT-4.1 在多项基准测试 (benchmark) 上超越 GPT-4o。同时，Hugging Face 收购了 Pollen Robotics 并推出开源机器人 Reachy 2，该机器人主要用于人机交互教育和研究，并可在 Python 中编程。此外，还关注了美国政府收紧对华 AI 芯片出口管制的新闻，旨在阻止中国获取先进 AI 硬件。文章分析了这些事件对 AI 技术发展、行业竞争和国际关系的影响。

编译自原文：www.deeplearning.ai/the-batch/i...

即使我是一个比 JavaScript 更好的 Python 开发者，借助 AI 的帮助，我最近一直在写大量的 JavaScript 代码。AI 辅助编程使得特定的编程语言变得不那么重要，尽管学习一门语言仍然有助于确保你理解关键概念。这帮助许多开发者用我们不熟悉的语言编写代码，从而使我们的代码能够在更多的上下文中运行！

我的背景是在机器学习工程和后端开发，但 AI 辅助编码让我能够使用 JavaScript（JS）或 TypeScript（TS）这些我不擅长的语言来构建前端系统（用户交互的部分），使得前端系统的开发变得更加容易。生成式 AI 让语法变得不那么重要，因此我们都可以同时成为 Python、JS、TS、C++、Java，甚至 COBOL 开发人员。也许有一天，我们不再会被称为"Python 开发人员"或"C++开发人员"，而是更多地被称为"开发人员"！

但理解不同语言背后的概念仍然很重要。这就是为什么学习至少一门语言，如 Python，仍然为提示 LLM 生成 Python 和其他语言的代码提供了很好的基础。如果你从一种执行类似任务但语法不同的编程语言切换到另一种，比如从 JS 切换到 TS，从 C++ 切换到 Java，或者从 Rust 切换到 Go，一旦你学会了第一组概念，你将知道很多提示 LLM 用第二种语言编写代码所需的概念。（虽然 TensorFlow 和 PyTorch 不是编程语言，但了解 TensorFlow 背后的深度学习概念也将使你更容易让 LLM 为你编写 PyTorch 代码，反之亦然！）此外，你将能够理解大部分生成的代码（也许需要一点 LLM 的帮助）。

不同的编程语言反映了不同的计算组织方式，理解这些概念仍然很重要。例如，不了解数组、字典、缓存和内存的人，在大多数语言中让 LLM 编写代码时会更不有效。

同样地，一个转向使用 JS 进行前端编程的 Python 开发者可以从学习前端系统的概念中受益。例如，如果你想让一个大语言模型（LLM）使用 React 框架构建前端，理解 React 如何将前端拆分为可重用的 UI 组件，以及它如何更新 DOM 数据结构（这决定了网页的外观），这将使你能够更精确地提示大语言模型，并帮助你理解如果出现问题如何进行修复。同样地，如果你想让大语言模型帮助你编写 CUDA 或 ROCm 代码，理解 GPU 如何组织计算和内存会有所帮助。

正如多语言流利者可以更容易地与其他语言使用者交流一样，大语言模型正在让开发者更容易在多种上下文中构建系统。如果你还没有这样做，我鼓励你尝试让大语言模型用你想要学习但可能还没有时间去学的语言编写一些代码，并看看它是否能帮助你实现一些新的应用。

继续构建！

Andrew

来自 deeplearning.ai 的消息

学习构建能够编写和执行代码以完成复杂任务的代理。"使用 Hugging Face smolagents 构建代码代理"，与 Hugging Face 合作开发，将教你如何使用 smolagents 框架构建代码代理、安全执行其代码以及设置生产就绪的多代理系统评估。免费注册

新闻

OpenAI 发布了成本效益更高的替代方案

OpenAI 更新了其模型阵容，并计划移除其中最大的、最昂贵的一个。

最新动态： OpenAI 引入了五款新的模型，可以接受文本和图像输入并生成文本输出。这些模型的参数数量、架构、训练数据集和训练方法尚未公布。通用型的 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 仅通过 API 提供。推理模型 o3 和 o4-mini 将通过 API 提供给合格的开发者以及使用 ChatGPT Plus、Pro、Team 的用户，不久后还将提供给 ChatGPT Enterprise 和 ChatGPT Education 的用户。该公司计划在 7 月终止GPT-4.5 ------ 它在 2 月底作为研究预览版推出。

GPT-4.1 系列： 在版本号的奇怪转变中，GPT-4.1 模型旨在成为 GPT-4.5 和 GPT-4o 的成本效益等效版本，并对 GPT-4.5 和 GPT-4o 进行了更新。它们接受的输入最多可达 100 万 tokens（相比之下，GPT-4.5 和 GPT-4o 为 128,000 tokens）。

价格： GPT-4.1 费用每百万输入/输出 tokens 为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2 / 2/ </math>2/8。GPT-4.1 mini 每百万输入/输出 tokens 为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.40 / 0.40/ </math>0.40/1.60。GPT-4.1 nano 每百万输入/输出 tokens 为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.10 / 0.10/ </math>0.10/0.40。对缓存的输入 tokens 有 75% 的折扣。
GPT-4.1 性能： GPT-4.1 在 OpenAI 测试的大多数基准测试中超过了 GPT-4o，在编程任务上表现尤为突出。它在 SWE-bench Verified（实际编程技能）、MultiChallenge⁠（多轮对话中的指令遵循）、MMMU（多模态推理）和 Video-MME（长上下文理解）方面显著优于 GPT-4o、o1 和 o3-mini。
GPT-4.1 mini 性能： 较小的 GPT-4.1 mini 在 OpenAI 测试的基准测试中通常超过了 GPT-4o mini。在 MultiChallenge 和 MMMU 方面，GPT-4.1 mini 比全尺寸的 GPT-4o 表现更好。

o3 和 o4-mini： 这些模型分别更新了 o1 和 o3-mini。它们的输入限制为 200,000 个标记，并且可以设置为低、中、高努力模式来处理不同数量的推理标记，这些推理标记对用户是隐藏的。与它们的前辈不同，它们经过微调以决定何时以及如何使用工具，包括网络搜索、代码生成和执行以及图像编辑。

价格： API 访问 o3 的费用为每百万个输入/输出标记 10 美元/40 美元。o4-mini 的费用为每百万个输入/输出标记 1.10 美元/4.40 美元。两者都提供 75% 的缓存输入标记折扣。
访问限制： 使用 API 访问 o3 的开发人员如果其使用量处于速率限制级别 1 至 3，则必须验证其身份才能使用 o3（使用量更高的级别 4 和 5 除外）。OpenAI 表示，这一限制旨在防止滥用。
图像处理： o3 和 o4-mini 可以对图像应用一系列思考------这是 OpenAI 推理模型的首次尝试。例如，用户可以上传带有说明的图表，模型将使用一系列思考和工具来处理该图表。
o3 性能： o3 在 MultiChallenge、MMMU、MathVista 和 HLE 等多个基准测试中达到了最先进的水平。它在 OpenAI 进行的测试中通常优于 o1。OpenAI 没有记录 o3 的长上下文性能，但在 Fiction.Live 独立进行的测试中，它在长达 120,000 个标记的上下文中几乎达到了完美的准确性。
o4-mini 性能： o4-mini 在 OpenAI 进行的测试中通常优于 o3-mini。在 Fiction.Live 进行的长上下文性能测试中，它优于大多数竞争对手模型。

新闻背后： 去年底，OpenAI 推出了 o1，这是第一个通过强化学习训练的商用模型，能够生成思维链。几个月后，DeepSeek、Google 和 Anthropic 分别推出了它们各自的推理模型 DeepSeek-R1、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。OpenAI 承诺将整合其通用 GPT 系列模型和 o 系列推理模型，但目前它们仍然是独立的。

为什么这很重要： GPT-4.5 是一个规模上的实验，它表明继续增加参数数量和训练数据会带来持续的性能提升。但就每单位文本的成本而言，它并不广泛实用。新模型，包括那些使用链式思维和工具的模型，以较低的价格提供了高性能。

我们的思考： Anthropic 是 OpenAI 的主要竞争对手之一，它通过 API 生成的大量文本（主要是代码）是它特别擅长的一项技能。OpenAI 对于擅长编程的模型的重视可能会在这个领域提升竞争！

Hugging Face 推出开源机器人

Hugging Face 以其提供开源 AI 模型而闻名，现在它还提供了一个开源机器人。

最新动态： Hugging Face 收购了法国公司 Pollen Robotics，收购金额未公开。该公司计划以 7 万美元的价格提供 Pollen 的 Reachy 2 机器人，该机器人运行在 Apache 2.0 许可证下免费开放的代码上。

工作原理： Reachy 2 有两个手臂、夹爪手和可选的轮式底座。它主要用于现实环境中的人机交互教育和研究。

Reachy 2 可以用 Python 编程，并运行 Hugging Face 的 LeRobot 库中的模型。
它在基于 AMD Ryzen Embedded V3000 处理器的 SolidRun Bedrock V3000（一个 PC）上本地运行控制软件，并在云端或本地服务器上处理 AI。
该机器人可以响应包括 Meta Quest 2 和 3 以及 Pollen 的 VR 应用程序在内的 VR 控制器。
它的头部使用配备全局快门的摄像头来感知视觉环境，捕捉快速变化的事件，并通过光学传感器测量距离。它的天线装有麦克风来捕捉声音，而它的躯干则使用深度摄像头来感知距离。底座包括一个激光雷达传感器以辅助导航。
身体配备了颈部和手腕的 3D 关节，以及肩膀和肘部的 2D 关节。每只手臂可以举起最多 3 公斤的物体。
一个可充电的24伏电池大约提供10小时的电池寿命。

新闻背后： 去年，曾在特斯拉 Optimus 项目工作的 Rémi Cadene 加入 Hugging Face，领导机器人项目。5 月，他和他的团队推出了开源机器人代码库 LeRobot，提供了用于强化学习和模仿学习的预训练模型、数据集和模拟器。11 月，Nvidia 宣布与 Hugging Face 合作，加速 LeRobot 的数据收集、训练和验证。

为什么这很重要： Hugging Face 收购 Pollen 反映了整个行业对机器人的投资，特别是人形机器人，其价格正在下降。Nvidia 首席执行官黄仁勋曾称，AI 驱动的机器人是一个"数万亿美元"的机会。

我们在思考： AI 驱动的机器人正缓慢地向我们希望的突破性应用迈进。开源系统是这一趋势的重要组成部分！

美国政府加大了长期努力，阻止中国获得最先进的人工智能硬件。

最新动态： 白宫宣布，未来向中国出口 Nvidia H20s 或 AMD MI308s 等同芯片将需要获得许可。同时，美国国会启动了对芯片供应商 Nvidia 是否违反早期出口规定的一项调查。

工作原理： Nvidia 于 2023 年底推出了 H20，以遵守 2022 年美国禁止向中国出口 Nvidia H100 和 H200 处理器的禁令。H20 使用与 H200 相同的架构，但性能低一个数量级，内存和带宽也更少。

Nvidia 估计，新的限制将使该公司损失 55 亿美元的收入。AMD 也预计会损失 8 亿美元。
国会议员启动了一项调查，调查 Nvidia 是否协助 DeepSeek 开发 AI 模型，这可能违反了美国的贸易限制。
该行动促使中国最大的芯片制造商加快了自家 AI 芯片的生产。华为计划于 5 月开始大规模发货其昇腾 910C AI 芯片，据路透社报道，该芯片据说相当于英伟达的 H100。该公司预计将在今年下半年大规模生产昇腾 920，这可能是 H20 的潜在替代品，据 Digitimes Asia 报道。

新闻背后：美国政府采取了多项措施限制向中国出口先进的处理器，旨在保护其在人工智能领域的领先地位，但这些措施并未阻止中国开发者缩小差距。2020 年，美国要求使用美国技术（包括国内芯片设计公司英伟达和荷兰 ASML 等先进制造设备制造商）的芯片制造商，在与中国的科技巨头华为进行业务往来前需获得许可。去年 12 月，美国发布了对涉及美国技术的处理器及其技术对中国企业销售的广泛限制措施。

是的，但是： 出口限制可能减缓了中国先进芯片的生产，但也激励了中国在人工智能领域争取领导地位。今年 1 月，中国人工智能开发者 DeepSeek 让美国政策制定者和人工智能专家感到意外，发布了与 OpenAI 的 o1 性能相当的 DeepSeek-R1，但其权重是免费提供的，并且使用较少的计算量进行训练。

为什么这很重要： 第一波对向中国销售先进芯片的限制对美国芯片制造商几乎没有造成伤害，主要是因为需求超过了供应。但后来的限制对他们的销售产生了更大的影响。新的限制可能会使英伟达和 AMD 失去大量收入，并且很可能会削弱他们在国外的竞争力，同时增强中国本土芯片制造业。

我们的思考： AI 社区的国际视野是其最大的优势之一。虽然各个国家必须关注自身的国家安全，但 AI 的进步惠及所有国家。即使在保护主义抬头的时代，我们希望全球 AI 社区的成员们继续相互支持，并促进思想的自由交流。

纯文本 LLM 兼具多模态能力

大型语言模型在处理文本方面表现出色，但不能直接解释图像、视频或音频，除非对这些媒体类型进行进一步训练。研究人员想出了一个克服这一限制的方法。

最新动态： Meta、德克萨斯大学和加州大学伯克利分校的 Kumar Ashutosh 及其同事提出了多模态迭代 LLM 求解器（MILS），这是一种将仅限文本的大语言模型（LLM）与多模态嵌入模型配对的方法，用于生成图像、视频和音频的描述，而无需进一步训练。

关键见解： LLM 可以生成文本并根据新信息调整其输出。另一方面，多模态嵌入模型可以计算给定文本与图像、视频或音频片段之间的相似度。根据这个分数，LLM 可以迭代地重新生成文本，直到分数表明文本与相关媒体之间有很强的匹配。这使得 LLM 能够在不进行这些任务的训练的情况下生成准确的图像、视频和音频描述。

工作原理： 给定一个提示和一张图片、一段视频或音频片段，Llama 3.1 8B 根据预训练的多模态嵌入模型对文本和媒体之间相似性的估计，迭代地生成和细化提示。

LLM 生成了 30,000 到 50,000 个初始字幕来启动这个过程。
给定每个字幕和一个媒体文件，一个多模态模型估计了它们的语义相似性分数。SigLIP 评估了文本和图像，ViCLIP 评估了文本和视频，ImageBind 评估了文本和音频。
基于与之前 50 个最相似的图例，LLM 生成了新的图例。
系统重复了之前的两步，直到最高分的文本变化不大，或者 LLM 达到预设的迭代次数。

结果： 作者在图像、视频和音频片段的字幕生成上评估了 MILS。他们根据评价翻译中显式顺序的指标（METEOR）来衡量性能，该指标检查同义词、同根词以及词序，以确定生成的字幕是否与真实字幕匹配（数值越高越好）。总体而言，MILS 优于经过特定任务训练的模型。

在图像字幕的 MSCOCO 数据集上，MILS 获得了 15.0 的 METEOR 分数，而 MeaCap 获得了 14.1 的 METEOR 分数。
在视频字幕评估的 MSR-VTT 数据集上，MILS 获得了 14.4 的 METEOR 分数，而一个用于视频字幕的模型获得了 11.3 的 METEOR 分数。
在 Clotho 上，它评估音频字幕，MILS 获得了 12.4 的 METEOR，而 ZerAuCap 达到了 9.4 的 METEOR。

为什么这很重要： 零样本字幕模型如 Aya Vision 和 Pixtral 需要在配对的字幕和媒体上进行训练。作者的方法利用了预训练的多模态模型，使 LLM 能够合成多媒体字幕而无需进一步训练。

我们在思考： 合成数据对于训练 AI 模型越来越有用。通过使 LLM 能够生成好的字幕，MILS 为这一趋势添了一把火。