OpenAI 以API 的形式发布了三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano

OpenAI 以API 的形式发布了三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。

这些模型的性能全面超越 GPT-4o 和 GPT-4o mini

在编码和指令跟踪方面均有显著提升。

拥有100 万个token的上下文

知识截止时间更新至 2024 年 6 月

  • GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。
  • GPT-4.1 mini:小型模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,成本降低 83%,适合需要高效性能的场景。
  • GPT-4.1 nano:OpenAI 首个超小型模型,速度最快、成本最低,拥有 100 万 token 上下文窗口,适用于低延迟任务如分类和自动补全。

🛠️ 关键能力提升

1. 编程能力(Coding)

  • SWE-bench Verified :GPT-4.1 完成率 54.6% ,大幅优于 GPT-4o(33.2%)和 GPT-4.5(38%)。

  • Aider's polyglot diff benchmark 中(处理代码差异格式),GPT-4.1 diff 格式准确率达 52.9% ,提升显著。

  • 前端开发更优:GPT-4.1 生成的 Web 页面在功能和美观性方面,80% 被人类评审偏好。

  • 实际案例

    • Windsurf:代码接受率提升 60%,调用工具效率提升 30%。
    • Qodo:在 200 个真实 PR 上,GPT-4.1 在 55% 的场景下生成更优评审。

2. 指令遵循能力(Instruction Following)

  • MultiChallenge(Scale AI) :GPT-4.1 得分 38.3% ,比 GPT-4o 高 10.5%。

  • IFEval:得分 87.4%,显著提升复杂指令的遵循能力。

  • 更擅长处理:

    • 自定义格式(如 YAML、Markdown)
    • 否定指令
    • 多步顺序任务
    • "不确定就说不知道"类问题
  • 实际案例

    • Blue J:税务场景中 GPT-4.1 的准确率提升 53%。
    • Hex:SQL 查询生成任务准确性提升 2 倍。

3. 长上下文处理能力(Long Context)

  • 上下文窗口从 GPT-4o 的 12.8 万 token 扩展到 100 万 token,足以处理 8 个 React 代码库的完整内容。

  • 在 Video-MME(长视频无字幕)基准测试中,GPT-4.1 得分 72.0%,比 GPT-4o(65.3%)提升 6.7%,在长上下文多模态任务中创下新纪录。

  • OpenAI 还发布了两个新评估数据集:

    • OpenAI-MRCR:测试模型在长上下文中检索和区分多个相似信息的能力,GPT-4.1 在 100 万 token 上下文中的表现依然强劲。
    • Graphwalks:测试多跳推理能力,GPT-4.1 在广度优先搜索任务中得分 61.7%,与 o1 相当,远超 GPT-4o(41.7%)。
    • Graphwalks BFS <128k 准确率 61.7%
    • OpenAI-MRCR 1M token 两针准确率 46.3%
  • 实际案例

    • Thomson Reuters:多文档法律审核准确率提升 17%
    • Carlyle:大文档中财务数据提取效率提升 50%

4. 多模态能力(Vision)

  • 图表、数学视觉推理上优于 GPT-4o:

    • MMMU(图文理解):GPT-4.1 得分 74.8%
    • MathVista(视觉数学):GPT-4.1 得分 72.2%
    • CharXiv(科研图表):GPT-4.1 得分 56.7%
    • Video-MME(长视频理解):GPT-4.1 得分 72.0%,领先行业

💰 价格与性能

  • GPT-4.1 的中位查询价格比 GPT-4o 低 26%,GPT-4.1 nano 是 OpenAI 有史以来最便宜的模型。
  • GPT-4.1 mini 的延迟比 GPT-4o 降低近一半,成本降低 83%,在智能评估中匹配或超越 GPT-4o。
  • GPT-4.1 nano 在 12.8 万 token 上下文的查询中,首 token 响应时间通常少于 5 秒。
  • 支持 prompt 缓存,最高可享 75% 折扣

  • 适配 Batch API 可再打 5 折

  • 🧾 与 GPT-4o 相比:

    • GPT‑4.1 性价比提升 26%
    • GPT-4.1 mini 性能接近但成本降低 83%
    • nano 是目前最快+最便宜模型

现实世界的应用案例

OpenAI 与多个合作伙伴测试了 GPT-4.1 系列模型,展示了其在现实世界任务中的表现:

  • 编码

    • Windsurf:GPT-4.1 在内部编码基准测试中比 GPT-4o 高出 60%,代码更改首次审查通过率更高,工具调用效率提升 30%,重复编辑减少 50%。
    • Qodo:在 GitHub 拉取请求的代码审查任务中,GPT-4.1 在 55% 的案例中提供更好的建议,兼顾精确性和全面性。
  • 指令遵循

    • Blue J:在复杂税务场景的内部基准测试中,GPT-4.1 比 GPT-4o 准确率高 53%,提升了税务研究的效率。
    • Hex:在 SQL 评估中,GPT-4.1 的准确率提升近 2 倍,尤其擅长处理大型模糊模式下的表选择,减少了手动调试。
  • 长上下文

    • Thomson Reuters:GPT-4.1 在多文档法律审查任务中准确率比 GPT-4o 提高 17%,能准确识别文档间的矛盾条款和补充上下文。
    • Carlyle:在提取大型金融文档数据时,GPT-4.1 的检索能力提升 50%,克服了其他模型在针尖式检索和多跳推理中的局限。

支持 AI 代理(Agents)

GPT-4.1 系列模型在指令遵循和长上下文理解方面的改进,使其更适合构建 AI 代理(能够自主完成任务的系统)。结合 OpenAI 的 Responses API,开发者可以创建更可靠的代理,应用于:

  • 软件工程:自动完成代码编写和调试。
  • 大型文档分析:提取关键信息,生成洞察。
  • 客户支持:处理复杂请求,减少人工干预。

📌 后续变化

  • GPT-4.5 Preview 将于 2025 年 7 月 14 日停用
  • GPT-4.1 将逐步成为开发者 API 的核心模型
相关推荐
熊猫_豆豆1 分钟前
神经网络的科普,功能用途,包含的数学知识
人工智能·深度学习·神经网络
笨蛋不要掉眼泪11 分钟前
deepseek封装结合websocket实现与ai对话
人工智能·websocket·网络协议
hesorchen22 分钟前
算力与数据驱动的 AI 技术演进全景(1999-2024):模型范式、Infra 数据、语言模型与多模态的关键突破
人工智能·语言模型·自然语言处理
你也渴望鸡哥的力量么38 分钟前
基于边缘信息提取的遥感图像开放集飞机检测方法
人工智能·计算机视觉
xian_wwq1 小时前
【学习笔记】深度学习中梯度消失和爆炸问题及其解决方案研究
人工智能·深度学习·梯度
StarRocks_labs1 小时前
StarRocks 4.0:Real-Time Intelligence on Lakehouse
starrocks·人工智能·json·数据湖·存算分离
Tracy9731 小时前
DNR6521x_VC1:革新音频体验的AI降噪处理器
人工智能·音视频·xmos模组固件
weixin_307779131 小时前
基于AWS Lambda事件驱动架构与S3智能生命周期管理的制造数据自动化处理方案
人工智能·云计算·制造·aws
yumgpkpm2 小时前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)使用 AI 优化库存水平、配送路线的具体案例及说明
大数据·人工智能·hive·hadoop·机器学习·zookeeper·cloudera
cpq372 小时前
AI学习研究——KIMI对佛教四圣谛深度研究
人工智能·学习