OpenAI 以API 的形式发布了三个新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano

OpenAI 以API 的形式发布了三个新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。

这些模型的性能全面超越 GPT-4o 和 GPT-4o mini

在编码和指令跟踪方面均有显著提升。

拥有100 万个token的上下文

知识截止时间更新至 2024 年 6 月

GPT-4.1：旗舰模型，在编码、指令遵循和长上下文理解方面表现最佳，适用于复杂任务。
GPT-4.1 mini：小型模型，在多个基准测试中超越 GPT-4o，同时将延迟降低近一半，成本降低 83%，适合需要高效性能的场景。
GPT-4.1 nano：OpenAI 首个超小型模型，速度最快、成本最低，拥有 100 万 token 上下文窗口，适用于低延迟任务如分类和自动补全。

🛠️ 关键能力提升

SWE-bench Verified ：GPT-4.1 完成率 54.6% ，大幅优于 GPT-4o（33.2%）和 GPT-4.5（38%）。
在 Aider's polyglot diff benchmark 中（处理代码差异格式），GPT-4.1 diff 格式准确率达 52.9% ，提升显著。
前端开发更优：GPT-4.1 生成的 Web 页面在功能和美观性方面，80% 被人类评审偏好。

实际案例：
- Windsurf：代码接受率提升 60%，调用工具效率提升 30%。
- Qodo：在 200 个真实 PR 上，GPT-4.1 在 55% 的场景下生成更优评审。

上下文窗口从 GPT-4o 的 12.8 万 token 扩展到 100 万 token，足以处理 8 个 React 代码库的完整内容。
在 Video-MME（长视频无字幕）基准测试中，GPT-4.1 得分 72.0%，比 GPT-4o（65.3%）提升 6.7%，在长上下文多模态任务中创下新纪录。
OpenAI 还发布了两个新评估数据集：
- OpenAI-MRCR：测试模型在长上下文中检索和区分多个相似信息的能力，GPT-4.1 在 100 万 token 上下文中的表现依然强劲。
- Graphwalks：测试多跳推理能力，GPT-4.1 在广度优先搜索任务中得分 61.7%，与 o1 相当，远超 GPT-4o（41.7%）。
- Graphwalks BFS <128k 准确率 61.7%
- OpenAI-MRCR 1M token 两针准确率 46.3%
实际案例：
- Thomson Reuters：多文档法律审核准确率提升 17%
- Carlyle：大文档中财务数据提取效率提升 50%

图表、数学视觉推理上优于 GPT-4o：
- MMMU（图文理解）：GPT-4.1 得分 74.8%
- MathVista（视觉数学）：GPT-4.1 得分 72.2%
- CharXiv（科研图表）：GPT-4.1 得分 56.7%
- Video-MME（长视频理解）：GPT-4.1 得分 72.0%，领先行业

支持 prompt 缓存，最高可享 75% 折扣
适配 Batch API 可再打 5 折
🧾 与 GPT-4o 相比：
- GPT‑4.1 性价比提升 26%
- GPT-4.1 mini 性能接近但成本降低 83%
- nano 是目前最快+最便宜模型

OpenAI 与多个合作伙伴测试了 GPT-4.1 系列模型，展示了其在现实世界任务中的表现：

编码：
- Windsurf：GPT-4.1 在内部编码基准测试中比 GPT-4o 高出 60%，代码更改首次审查通过率更高，工具调用效率提升 30%，重复编辑减少 50%。
- Qodo：在 GitHub 拉取请求的代码审查任务中，GPT-4.1 在 55% 的案例中提供更好的建议，兼顾精确性和全面性。
指令遵循：
- Blue J：在复杂税务场景的内部基准测试中，GPT-4.1 比 GPT-4o 准确率高 53%，提升了税务研究的效率。
- Hex：在 SQL 评估中，GPT-4.1 的准确率提升近 2 倍，尤其擅长处理大型模糊模式下的表选择，减少了手动调试。
长上下文：
- Thomson Reuters：GPT-4.1 在多文档法律审查任务中准确率比 GPT-4o 提高 17%，能准确识别文档间的矛盾条款和补充上下文。
- Carlyle：在提取大型金融文档数据时，GPT-4.1 的检索能力提升 50%，克服了其他模型在针尖式检索和多跳推理中的局限。

GPT-4.1 系列模型在指令遵循和长上下文理解方面的改进，使其更适合构建 AI 代理（能够自主完成任务的系统）。结合 OpenAI 的 Responses API，开发者可以创建更可靠的代理，应用于：