GPT-4.1 深夜登场，中科大校友领队！百万上下文编程惊人，GPT-4.5 三个月后淘汰

【新智元导读】OpenAI 重磅发布的 GPT-4.1 系列模型，带来了编程、指令跟随和长上下文处理能力的全面飞跃！由中科大校友 Jiahui Yu 领衔的团队打造。与此同时，备受争议的 GPT-4.5 将在三个月后停用，GPT-4.1 nano 则以最小、最快、最便宜的姿态强势登场。

就在刚刚，OpenAI 专为开发者重磅推出了三款全新模型：GPT-4.1 、GPT-4.1 mini 和 GPT-4.1 nano！

它们均拥有最高 100 万 Token 的超大上下文窗口，在代码、指令跟随等核心能力上全面超越 GPT-4o 及 GPT-4o mini，并且知识截止日期也已更新至 2024 年 6 月。

值得注意的是，GPT‑4.1 系列将仅通过 API 提供，并已向所有开发者开放。

GPT-4.1 nano 是 OpenAI 首个 nano 模型，也是他们目前可用模型中最快、最便宜的一款。

别看它体积不大，性能一点不弱：MMLU 得分 80.1%，GPQA 得分 50.3%，Aider 多语言编码基准 9.8%，完胜 GPT-4o mini！

GPT-4.1 mini 在多项基准测试超越 GPT-4o，速度快一倍的同时成本骤降 83%，效率拉满！

作为其中旗舰模型的 GPT‑4.1 更是强的可怕：

最强编码：GPT‑4.1 在 SWE-bench Verified 上的得分为 54.6%，比 GPT‑4o 提高了 21.4%，比 GPT‑4.5 提高了 26.6%。
指令跟随：在 Scale 的 MultiChallenge⁠上，GPT‑4.1 的得分为 38.3%，比 GPT‑4o 提高了 10.5%。
长上下文：在 Video-MME 上，GPT‑4.1 取得了新的 SOTA------在长视频、无字幕类别中得分 72.0%，比 GPT‑4o 提高了 6.7%。

自此，谜语人奥特曼口中的「quasar」也终于得到了确认------就是 GPT-4.1！

而随着能力更强、成本延迟更低的 GPT-4.1 的推出，一直以来都饱受争议的 GPT‑4.5 Preview 也将在 3 个月后（7 月 14 日）从 API 中下架。

对此 OpenAI 表示，GPT‑4.5 原本就是作为研究预览版推出的，目的是探索和实验一个大规模、计算密集型的 LLM。

虽然模型即将停用，但 OpenAI 会把开发者喜爱的创造力、写作质量、幽默感等特点，继续融入未来的 API 模型中。

现场 Demo 实测

首先，当然就是编程能力。

在这个 demo 中，研究者要求 GPT-4.1 做一个在线抽认卡网页应用，提出了许多相当具体的要求。比如点击抽认卡时，要出现 3D 动画。

对于这个任务，GPT-4o 完成得是这样的。

相比之下，GPT-4.1 就完成得十分流畅了，无论是在颜色，还是在 3D 动画上。

注意，从头到尾，只需要一个 prompt，就能得到一个完整的应用程序！

下面是一个 OpenAI 的 Playground，在演示中，研究者要求 GPT-4.1 生成一个单一的 Python 文件代码应用，在右侧模拟用户查询，这个网站可以接收大型文本文件、回答相关问题。

可以看到，模型产生了数百行代码。研究者将这些代码实际运行后，发现效果出人意料的好。

仅仅一个提示，它就创建了这个网站。

接下来，是大海捞针的展示。

研究者上传了文件------NASA 自 1995 年 8 月以来的服务器请求响应日志文件，

在这个文件中，左侧是向 NASA 服务器发出请求的客户端名称，这是一个包含大量日志行的长文件，左侧大概有 450000 个 token 的内容。

在 OpenAI 以前的模型上，是不可能使用这个文件的。

这里，研究者偷偷添加了一行实际上不是 HTTP 请求响应的内容，这支堆栈中的小「针」，很难发觉。

最终，GPT-4.1 成功了！

研究者经过确认，这一行的确在他们上传的日志文件中。

OpenAI 特意强调，在实践中非常重要的一点，就是 API 开发者是如何提示模型的。

在这个任务中，GPT-4.1 的任务是日志分析员助手。研究者告诉它输入的数据以及用户的查询该如何构建。

接下来还有一些规则，比如模型只用回答日志数据内容相关的问题，问题应该始终在查询标签内格式化，如果其中一项不真实请回复错误消息等等。

接下来，就是 GPT-4.1 展示的时候了。

研究者询问：fnal.gov 发出了多少请求？模型拒绝了，因为它没有在查询标签内格式化。

而如果在查询标签内发出同样的请求，它就可以找到日志文件中的两个引用了。

这样，开发者就可以明确让模型做到「不做某事」，这是开发过程中一个极其有意义的关键细节------遵循负面指令。

定价

价格方面，GPT‑4.1 虽然比 GPT‑4o 便宜了 26%，但输入、输出依然高达每百万 token 2 美元和 8 美元。

GPT‑4.1 nano 是 OpenAI 迄今为止价格最低、速度最快的模型，输入、输出分别为 0.1 美元和 0.4 美元。

对于重复使用相同上下文的查询，这些新模型的提示词缓存折扣已从之前的 50% 提高至 75%。

最后，长上下文请求已包含在标准的按 Token 计费内，无额外费用。

编程：OpenAI 最强模型诞生

相对 GPT-4o、o1、o3-mini 等模型，GPT-4.1 在编程上都提升了一大截。

在各种编程任务上明显比 GPT-4o 强得多，比如用智能体解决编程问题、前端开发、减少不必要的代码修改、严格跟随不同的格式、保持工具使用的一致性等等。

在 SWE-bench Verified 这个反映真实软件工程能力的测试中，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o（2024-11-20）只有 33.2%。

这说明 GPT-4.1 在浏览代码库、完成任务以及生成既能运行又能通过测试的代码方面有了很大提升。

对于 SWE-bench Verified，模型会接收一个代码仓库和问题描述，并需要生成一个补丁来解决该问题。其性能高度依赖于所使用的提示词和工具

对于希望编辑大型文件的 API 开发者而言，GPT-4.1 在处理各种格式的代码差异（code diffs）时，可靠性要高得多。

Aider 多语言差异基准测试⁠，不仅衡量了模型跨多种编程语言的编码能力，也衡量了其以完整文件格式和不同格式生成代码变更的能力。

在这里，GPT‑4.1 的得分是 GPT‑4o 的 2 倍以上，甚至比 GPT‑4.5 高出 8%。

如此一来，开发者便无需重写整个文件，而是让模型输出变更的行即可，从而大幅节省成本并降低延迟。

对于倾向于重写整个文件的开发者，GPT‑4.1 的输出 Token 上限也提高到了 32,768 个 Token（GPT‑4o 为 16,384 个）。其中，可以使用 Predicted Outputs 功能来降低完整文件重写的延迟。

在 Aider 的多语言基准测试中，模型通过编辑源文件的方式解决来自 Exercism⁠的编码练习，并允许一次重试。「whole」格式要求模型重写整个文件，这可能速度较慢且成本较高。「diff」格式则要求模型编写一系列搜索 / 替换块

此外，GPT‑4.1 在前端编码方面相较于 GPT‑4o 也有显著改进，能够创建出功能更完善、视觉上更美观的 Web 应用。

在直接对比评估中，人类评委有 80% 的情况更倾向于选择 GPT‑4.1 生成的网站，而非 GPT‑4o。

视频详情

指令跟随：现已进入第一梯队

在指令跟随方面，OpenAI 特地开发了一套内部的评估体系，用以追踪模型在多个维度及以下几个关键指令跟随类别上的表现：

格式跟随（Format following）：按要求的自定义格式（如 XML、YAML、Markdown 等）生成响应。
否定性指令（Negative instructions）：避免执行特定行为。（示例：「不要让用户联系支持人员」）
有序指令（Ordered instructions）：按给定顺序执行一系列操作。（示例：「先询问用户姓名，再询问其邮箱地址」）
内容要求（Content requirements）：确保输出内容包含特定信息。（示例：「撰写营养计划时，必须包含蛋白质克数」）
排序（Ranking）：按特定方式排列输出内容。（示例：「按人口数量对结果进行排序」）
识别知识边界（Overconfidence）：在无法获取所请求信息或请求超出指定范畴时，回答「我不知道」或类似表述。（示例：「如果你不知道答案，请提供支持团队的联系邮箱」）

这些类别是基于开发者反馈确定的，反映了他们认为最为相关且重要的指令跟随维度。其中，每个类别都将提示词按难度分为了简单、中等和困难三类。

在处理困难提示词方面，GPT-4o 和 GPT-4o mini 只有不到 30% 的正确率，而新系列中最小的 nano 都达到了 32%。

与此同时，GPT-4.1 则达到了 49%，几乎追平了 o1 和 o3-mini，但和 GPT-4.5 还有一段距离。

内部指令跟随能力评估是基于真实的开发者用例和反馈，涵盖了不同复杂程度的任务，并结合了关于格式、详细程度、长度等方面的指令要求

对许多开发者而言，多轮指令跟随至关重要，这意味着模型需要在对话深入时保持连贯性，并记住用户先前告知的信息。

而 GPT-4.1 能够更好地从对话历史消息中提取信息，从而实现更自然的交互。

在 Scale AI 推出的 MultiChallenge 基准测试中，GPT‑4.1 虽然不及 o1 和 GPT-4.5，但已经可以追上 o3-mini，并且比 GPT‑4o 提升了 10.5% 之多。

在 MultiChallenge 基准测试中，模型面临的挑战是在多轮对话里，能够正确使用来自先前消息（对话上文）的四种类型的信息

此外，GPT‑4.1 在 IFEval 上的得分为 87.4%，而 GPT‑4o 为 81.0%。IFEval 使用包含可验证指令的提示词（例如，指定内容长度或避免使用特定术语 / 格式）。

在 IFEval 中，模型必须生成符合各种指令的答案

更强的指令跟随能力不仅能提升现有应用的可靠性，也能实现过去因模型可靠性不足而难以实现的新应用

早期测试人员反馈，GPT‑4.1 可能更倾向于跟随字面指令，因此 OpenAI 建议在设计提示词时力求明确和具体。

长上下文：大海捞针直接满分

长上下文理解能力是法律、编码、客户支持及诸多其他领域应用的一项关键能力。

GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 不仅可处理最多 100 万 Token 的上下文，而且能够可靠地处理其中的内容，并忽略干扰信息。

100 万 Token 是什么概念？类比来说，其包含的内容量可以达到整个 React 代码库 8 倍以上！

比起 GPT‑4o 的 12.8 万 Token，可以说是提升十分巨大了。

下面，演示了 GPT‑4.1 在上下文窗口不同位置检索隐藏的小段信息（即「针」）的能力。

在长达 100 万 Token 的各种上下文长度和所有位置点上，GPT‑4.1 都能持续准确地检索到「针」。这意味着它能有效提取当前任务所需的相关细节，无论这些细节位于输入的哪个部分。

不过，现实世界的任务很少像检索单个、明显的「针」那样简单直接。

在「大海捞针」（Needle in a Haystack）评估中，GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 均能在长达 100 万 Token 的上下文中的所有位置成功检索到「针」

OpenAI-MRCR

在实际应用时，用户通常需要模型能够检索并理解多条信息，并且理解这些信息片段之间的相互关联。

为此，OpenAI 开源了一项测试模型在长上下文中查找并区分多个隐藏「针」的新基准：OpenAI-MRCR（Multi-Round Coreference）。

该评估包含用户与助手之间的多轮合成对话，在对话中用户要求模型就某个主题进行创作，例如「写一首关于貘的诗」或「写一篇关于石头的博客文章」。

接着，在上下文中随机插入 2 个、4 个或 8 个内容相似但实例不同的请求。

模型必须准确检索出与用户指定的某一特定实例相对应的响应（例如，「请给我第三首关于貘的诗」）。

这项任务的挑战在于，这些相似请求与上下文的其他部分非常接近------模型很容易被细微差异误导，比如将关于貘的短篇故事误认为诗歌，或将关于青蛙的诗歌误认为关于貘的诗歌。

当上下文达到 GPT‑4o 极限的 12.8 万 Token 时，GPT‑4.1 的表现明显更优；即使上下文长度扩展到 100 万 Token，它依然能保持强劲的性能。

在 OpenAI-MRCR 中，模型必须回答一个问题，该问题涉及在分散注意力的内容中区分 2、4 或 8 个用户提示

Graphwalks

Graphwalks 是一个用于评估多跳长上下文推理的数据集。

许多面向开发者的长上下文用例需要在上下文中进行多次逻辑跳跃，例如在编写代码时在多个文件之间切换，或在回答复杂的法律问题时进行文档的交叉引用。

模型（甚至人类）理论上可以通过单次遍历或通读上下文来解决 OpenAI-MRCR 问题，但 Graphwalks 的设计旨在要求跨上下文多个位置进行推理，并且无法通过顺序处理来解决。

Graphwalks 用一个由十六进制哈希值组成的有向图填充上下文窗口，然后要求模型从图中的一个随机节点开始执行广度优先搜索（BFS）。接着，要求模型返回特定深度的所有节点。

GPT‑4.1 在此基准测试中达到了 61.7% 的准确率，与 o1 的性能持平，并轻松击败了 GPT‑4o。

在 Graphwalks 中，要求模型从一个大型图中的随机节点进行广度优先搜索

视觉：图像理解超越 GPT-4o 称霸

GPT‑4.1 系列在图像理解方面能力极强，特别是 GPT‑4.1 mini 实现了显著飞跃，在图像基准测试中其表现常常优于 GPT‑4o。

在 MMMU 基准测试中，模型需回答包含图表、示意图、地图等内容的问题

在 MathVista⁠基准测试中，模型需解决视觉数学任务

在 CharXiv-Reasoning 基准测试中，模型需回答关于科学论文中图表的问题

长上下文处理能力对于多模态用例（例如处理长视频）也至关重要。

在 Video-MME（长视频，无字幕）基准测试中，模型需要根据时长 30-60 分钟且无字幕的视频来回答多项选择题。

这里，GPT‑4.1 再次达到了 SOTA------得分 72.0%，高于 GPT‑4o 的 65.3%。

在 Video-MME 中，模型根据 30-60 分钟长且无字幕的视频回答多项选择题

完整结果

下文完整列出了在学术、编程、指令跟随、长上下文、视觉及函数调用评估中的结果。

学术知识

编程

指令跟随

长上下文

视觉

函数调用

华人领队

Jiahui Yu

Jiahui Yu 目前负责感知（Perception）团队，研究领域是深度学习和高性能计算。

GPT-4o 发布时，他就是关键成员之一。

此前，他曾在 Google DeepMind 共同负责 Gemini 多模态项目。

他在微软亚研院、旷视科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research 和 Google Brain 都有过实习经历。

他在中国科技大学少年班获得计算机学士学位。在伊利诺伊大学香槟分校获得博士学位。

参考资料：

openai.com/index/gpt-4...

x.com/OpenAI