OpenAI以API的形式发布了三 个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano

关键要点: 根据2025年4月14日OpenAI发布的公告,GPT-4.1、GPT-4.1 mini和GPT-4.1 nano是三种新模型,性能优于之前的GPT-4o,尤其在编码、指令遵循和长上下文处理方面。它们通过API提供,不在ChatGPT中使用,定价从每百万token 0.12美元到1.84美元不等。

模型概述

这些模型于2025年4月14日推出,支持高达100万token的上下文窗口。GPT-4.1在编码任务上表现最佳,SWE-bench Verified得分54.6%,比GPT-4o高21.4%。GPT-4.1 nano最便宜,适合分类和自动补全任务。

性能亮点

编码能力:GPT-4.1在SWE-bench Verified上得分54.6%,指令遵循得分38.3%(Scale's MultiChallenge)。

长上下文:支持100万token,Video-MME得分72.0%,比GPT-4o高6.7%。

成本效率:GPT-4.1比GPT-4o便宜26%,GPT-4.1 nano每百万token输入仅0.10美元。

定价详情

以下是每百万token的定价(美元):

模型

输入

缓存输入

输出

综合定价*

gpt-4.1

2.00

0.50

8.00

1.84

gpt-4.1-mini

0.40

0.10

1.60

0.42

gpt-4.1-nano

0.10

0.025

0.40

0.12

*注:综合定价基于典型输入/输出比例,享受75%提示缓存折扣。

调查笔记

以下是关于GPT-4.1、GPT-4.1 mini和GPT-4.1 nano模型的详细分析,基于2025年4月14日OpenAI的公告内容。这些模型的发布标志着AI能力在编码、指令遵循和长上下文处理方面的显著进步,适合开发者社区的不同需求。

背景与发布

OpenAI于2025年4月14日推出了三种新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型旨在超越之前的GPT-4o和GPT-4o mini,知识截止日期为2024年6月,反映了最新的训练数据。它们通过API提供,但不在ChatGPT中使用,面向开发者集成需求。需要注意的是,GPT-4.5 Preview将于2025年7月14日停用,建议开发者尽快迁移。

性能改进

这些模型在多个基准测试中表现出色,具体如下:

编码能力:GPT-4.1在SWE-bench Verified上得分54.6%,相比GPT-4o提高了21.4%,相比GPT-4.5提高了26.6%。这表明模型在处理复杂编码任务时的准确性和效率显著提升,特别适合开发者社区的需求。

指令遵循:在Scale's MultiChallenge上得分38.3%,比GPT-4o提高了10.5%,显示出更好的指令理解和执行能力。

长上下文处理:在Video-MME基准测试中(长,无字幕),得分72.0%,比GPT-4o提高了6.7%,支持高达100万token的上下文长度。这对于处理长文档或视频内容尤为重要。

学术和视觉能力:GPT-4.1在MMLU上得分90.2%,MMMU上得分74.8%;GPT-4.1 mini在MMLU上得分87.5%,MMMU上得分72.7%;GPT-4.1 nano在MMLU上得分80.1%,MMMU上得分55.4%,显示出在学术和视觉任务上的不同表现。

成本与延迟

成本和延迟是开发者关注的重点:

GPT-4.1在中位查询中比GPT-4o便宜26%,显著降低了使用成本。

GPT-4.1 nano是系列中最经济和最快的模型,其p95延迟(到第一个token)为128,000 token时约15秒,100万token时约30秒。这使得它特别适合需要快速响应的应用场景,如分类和自动补全任务。

定价结构

以下是每百万token的详细定价(美元),包括输入、缓存输入、输出和综合定价:

模型

输入

缓存输入

输出

综合定价*

gpt-4.1

2.00

0.50

8.00

1.84

gpt-4.1-mini

0.40

0.10

1.60

0.42

gpt-4.1-nano

0.10

0.025

0.40

0.12

*注:综合定价基于典型输入/输出比例和75%提示缓存折扣。这意味着开发者在缓存使用率高时可以显著降低成本。

可用性与过渡

这些模型通过API提供,但不在ChatGPT中使用,面向开发者社区的集成需求。需要注意的是,GPT-4.5 Preview将于2025年7月14日停用,建议开发者尽快迁移到新模型。

基准测试与评估

OpenAI提供了多个基准测试的详细结果,包括但不限于:

SWE-bench Verified (SWE-bench Verified)

Scale's MultiChallenge (Scale's MultiChallenge)

Video-MME (Video-MME)

Aider's polyglot diff benchmark (Aider's polyglot diff benchmark)

IFEval (IFEval)

OpenAI-MRCR (OpenAI-MRCR)

Graphwalks (Graphwalks)

这些基准测试涵盖了学术、编码、指令遵循、长上下文、视觉和函数调用等多个维度,开发者可通过上述链接获取详细数据。

实际应用案例

OpenAI收集了来自多个公司的反馈,包括Windsurf、Qodo、Hex、Blue J、Thomson Reuters和Carlyle。这些案例展示了新模型在实际场景中的应用,例如:

编码任务的效率提升。

指令遵循的准确性提高。

长上下文任务的处理能力增强。

这些反馈为开发者提供了实际使用场景的参考,证明了模型的实用性。

附加功能

除了性能改进,新模型还包括以下增强功能:

改进的推理堆栈,提升了模型的计算效率。

提示缓存功能,降低了重复查询的成本。

视觉能力增强,特别是GPT-4.1 mini在图像理解任务中的表现优异,例如MMMU上得分75%,MathVista上得分72.2%。

这些功能使得模型更适合多样化的应用场景,尤其是需要视觉理解和高效推理的任务。

模型特定用例

GPT-4.1:最适合需要高性能编码和复杂指令遵循的任务,理想用于开发复杂的AI应用。

GPT-4.1 mini:提供性能和成本之间的平衡,适合需要中等改进的应用场景。

GPT-4.1 nano:设计为速度和成本效率,完美适合轻量级任务如分类、自动补全和需要快速响应的场景。

总结与未来展望

GPT-4.1系列模型的推出体现了OpenAI在AI开发领域的持续创新,特别是在编码和长上下文处理方面的突破。定价结构的优化和实际案例的反馈为开发者提供了更多选择和信心。未来,开发者可期待这些模型在API集成中的进一步优化,以及对新技术的快速响应。

关键引用

SWE-bench Verified介绍

Scale's MultiChallenge排行榜

Video-MME主页

Aider's polyglot diff基准测试

IFEval学术论文

OpenAI-MRCR数据集

Graphwalks数据集

相关推荐
CodeCraft Studio15 分钟前
PDF处理控件Aspose.PDF指南:使用 C# 从 PDF 文档中删除页面
前端·pdf·c#
好_快26 分钟前
Lodash源码阅读-baseFill
前端·javascript·源码阅读
好_快26 分钟前
Lodash源码阅读-fill
前端·javascript·源码阅读
excel1 小时前
webpack 模块图 第 三 节
前端
徐_三岁1 小时前
Vue 3中的 setup
前端
excel1 小时前
webpack 模块图 第 二 节
前端
—Qeyser7 小时前
用 Deepseek 写的uniapp血型遗传查询工具
前端·javascript·ai·chatgpt·uni-app·deepseek
codingandsleeping7 小时前
HTTP1.0、1.1、2.0 的区别
前端·网络协议·http
小满blue7 小时前
uniapp实现目录树效果,异步加载数据
前端·uni-app
天天扭码9 小时前
零基础 | 入门前端必备技巧——使用 DOM 操作插入 HTML 元素
前端·javascript·dom