关键要点: 根据2025年4月14日OpenAI发布的公告,GPT-4.1、GPT-4.1 mini和GPT-4.1 nano是三种新模型,性能优于之前的GPT-4o,尤其在编码、指令遵循和长上下文处理方面。它们通过API提供,不在ChatGPT中使用,定价从每百万token 0.12美元到1.84美元不等。
模型概述
这些模型于2025年4月14日推出,支持高达100万token的上下文窗口。GPT-4.1在编码任务上表现最佳,SWE-bench Verified得分54.6%,比GPT-4o高21.4%。GPT-4.1 nano最便宜,适合分类和自动补全任务。
性能亮点
编码能力:GPT-4.1在SWE-bench Verified上得分54.6%,指令遵循得分38.3%(Scale's MultiChallenge)。
长上下文:支持100万token,Video-MME得分72.0%,比GPT-4o高6.7%。
成本效率:GPT-4.1比GPT-4o便宜26%,GPT-4.1 nano每百万token输入仅0.10美元。
定价详情
以下是每百万token的定价(美元):
模型
输入
缓存输入
输出
综合定价*
gpt-4.1
2.00
0.50
8.00
1.84
gpt-4.1-mini
0.40
0.10
1.60
0.42
gpt-4.1-nano
0.10
0.025
0.40
0.12
*注:综合定价基于典型输入/输出比例,享受75%提示缓存折扣。
调查笔记
以下是关于GPT-4.1、GPT-4.1 mini和GPT-4.1 nano模型的详细分析,基于2025年4月14日OpenAI的公告内容。这些模型的发布标志着AI能力在编码、指令遵循和长上下文处理方面的显著进步,适合开发者社区的不同需求。
背景与发布
OpenAI于2025年4月14日推出了三种新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型旨在超越之前的GPT-4o和GPT-4o mini,知识截止日期为2024年6月,反映了最新的训练数据。它们通过API提供,但不在ChatGPT中使用,面向开发者集成需求。需要注意的是,GPT-4.5 Preview将于2025年7月14日停用,建议开发者尽快迁移。
性能改进
这些模型在多个基准测试中表现出色,具体如下:
编码能力:GPT-4.1在SWE-bench Verified上得分54.6%,相比GPT-4o提高了21.4%,相比GPT-4.5提高了26.6%。这表明模型在处理复杂编码任务时的准确性和效率显著提升,特别适合开发者社区的需求。
指令遵循:在Scale's MultiChallenge上得分38.3%,比GPT-4o提高了10.5%,显示出更好的指令理解和执行能力。
长上下文处理:在Video-MME基准测试中(长,无字幕),得分72.0%,比GPT-4o提高了6.7%,支持高达100万token的上下文长度。这对于处理长文档或视频内容尤为重要。
学术和视觉能力:GPT-4.1在MMLU上得分90.2%,MMMU上得分74.8%;GPT-4.1 mini在MMLU上得分87.5%,MMMU上得分72.7%;GPT-4.1 nano在MMLU上得分80.1%,MMMU上得分55.4%,显示出在学术和视觉任务上的不同表现。
成本与延迟
成本和延迟是开发者关注的重点:
GPT-4.1在中位查询中比GPT-4o便宜26%,显著降低了使用成本。
GPT-4.1 nano是系列中最经济和最快的模型,其p95延迟(到第一个token)为128,000 token时约15秒,100万token时约30秒。这使得它特别适合需要快速响应的应用场景,如分类和自动补全任务。
定价结构
以下是每百万token的详细定价(美元),包括输入、缓存输入、输出和综合定价:
模型
输入
缓存输入
输出
综合定价*
gpt-4.1
2.00
0.50
8.00
1.84
gpt-4.1-mini
0.40
0.10
1.60
0.42
gpt-4.1-nano
0.10
0.025
0.40
0.12
*注:综合定价基于典型输入/输出比例和75%提示缓存折扣。这意味着开发者在缓存使用率高时可以显著降低成本。
可用性与过渡
这些模型通过API提供,但不在ChatGPT中使用,面向开发者社区的集成需求。需要注意的是,GPT-4.5 Preview将于2025年7月14日停用,建议开发者尽快迁移到新模型。
基准测试与评估
OpenAI提供了多个基准测试的详细结果,包括但不限于:
SWE-bench Verified (SWE-bench Verified)
Scale's MultiChallenge (Scale's MultiChallenge)
Video-MME (Video-MME)
Aider's polyglot diff benchmark (Aider's polyglot diff benchmark)
IFEval (IFEval)
OpenAI-MRCR (OpenAI-MRCR)
Graphwalks (Graphwalks)
这些基准测试涵盖了学术、编码、指令遵循、长上下文、视觉和函数调用等多个维度,开发者可通过上述链接获取详细数据。
实际应用案例
OpenAI收集了来自多个公司的反馈,包括Windsurf、Qodo、Hex、Blue J、Thomson Reuters和Carlyle。这些案例展示了新模型在实际场景中的应用,例如:
编码任务的效率提升。
指令遵循的准确性提高。
长上下文任务的处理能力增强。
这些反馈为开发者提供了实际使用场景的参考,证明了模型的实用性。
附加功能
除了性能改进,新模型还包括以下增强功能:
改进的推理堆栈,提升了模型的计算效率。
提示缓存功能,降低了重复查询的成本。
视觉能力增强,特别是GPT-4.1 mini在图像理解任务中的表现优异,例如MMMU上得分75%,MathVista上得分72.2%。
这些功能使得模型更适合多样化的应用场景,尤其是需要视觉理解和高效推理的任务。
模型特定用例
GPT-4.1:最适合需要高性能编码和复杂指令遵循的任务,理想用于开发复杂的AI应用。
GPT-4.1 mini:提供性能和成本之间的平衡,适合需要中等改进的应用场景。
GPT-4.1 nano:设计为速度和成本效率,完美适合轻量级任务如分类、自动补全和需要快速响应的场景。
总结与未来展望
GPT-4.1系列模型的推出体现了OpenAI在AI开发领域的持续创新,特别是在编码和长上下文处理方面的突破。定价结构的优化和实际案例的反馈为开发者提供了更多选择和信心。未来,开发者可期待这些模型在API集成中的进一步优化,以及对新技术的快速响应。
关键引用
SWE-bench Verified介绍
Scale's MultiChallenge排行榜
Video-MME主页
Aider's polyglot diff基准测试
IFEval学术论文
OpenAI-MRCR数据集
Graphwalks数据集