GPT‑4.1重磅发布，专为开发者设计，百万token上下文，ChatGPT4o的全面升级

一、GPT‑4.1发布

4月14日，OpenAI在API中推出了三款新车型：GPT‑4.1、GPT‑4.1 mini和GPT‑4.1 nano。

GPT‑4.1 nano：迄今为止最便宜、速度最快的模型，适合低延迟的简单任务；
GPT-4.1 mini：能力与之前的GPT-4o旗鼓相当，但延迟降低了近一半，成本降低了 83%；
GPT‑4.1：ChatGPT4o的全面升级，编码、指令遵循、图像理解、学术知识、上下文长度、价格等诸多方面提升明显。

如下图所示：

横坐标latency（延迟）、纵坐标intelligence（智能），GPT-4.1比GPT-4o强了一点，而4.1 mini则超出了4o mini一大截。

很明显，这次更新的主角是GPT-4.1模型。

OpenAI表示，史上最贵模型GPT‑4.5预览版将在3个月后，即2025年7月14日关闭，取而代之的是价格更加亲民、性能更加强大的GPT-4.1。

二、编码

GPT-4.1在各种编码任务上明显优于GPT-4o，主要体现在以下几个方面：

**前端编码能力增强：**在处理前端开发任务时表现出更高的准确性和效率，能够更好地理解和生成相关代码。
**减少不必要的编辑：**GPT-4.1在生成代码时，能够避免多余的修改，保持代码的简洁性和可读性。
**可靠地遵循不同的格式：**模型能够准确地生成符合不同格式的代码更改，方便开发者进行版本控制和代码审查。
**确保工具使用的一致性：**GPT-4.1 在使用开发工具和库时，能够保持一致性，减少因工具使用不当导致的错误。

在测试实际软件工程技能的sw-bench Verified测试中，GPT‑4.1完成了54.6%的任务，而GPT‑4o（2024-11-20）完成了33.2%的任务，甚至比OpenAI史上最贵模型GPT-4.5高出17%，简直离谱。 这反映了模型探索代码存储库、完成任务和生成运行并通过测试的代码的能力的改进。

GPT-4.1在前端编码方面也大大改进了GPT-4o，并且能够创建功能更强大、更美观的web应用程序。在 head-to-head 对比中，GPT-4.1 的网站比 GPT-4o 的网站更受欢迎。

三、指令遵循

GPT-4.1在指令遵循方面有显著提升，研究人员强调了模型的可靠性改进，指出他们"使模型在指令遵循方面变得更好"。

根据开发者的反馈，对GPT-4.1在各种指令遵循方面进行了针对性的改进：

不再胡说八道，如果请求的信息不可用，或者没有一个明确的答案，GPT4.1会直接返回"我不知道"或类似的话。不会根据提示词而改变最初的回答。
支持负面指定，比如避免某某行为
可以执行指定顺序的指令，支持以指定顺序输出内容
支持返回指定格式的数据，比如XML、YAML、Markdown等。

四、上下文长度

GPT-4.1、GPT-4.1 mini和GPT-4.1 nano拥有100万token的输入上下文窗口，可用于多种长文本任务，包括结构化文档解析、信息筛选和多跳推理 Openai。这对处理学术文献、长篇论文和复杂研究材料特别有用。

五、学术知识

GPT-4.1 在学术知识方面的提升主要体现在 MMLU 基准测试中，取得 90.2% 的分数，相比之下，之前的 GPT-4 在同一测试中得分为 85.7%。这表明 GPT-4.1 在跨多个学科的学术知识和问题解决能力上有所进步。此外，GPT-4.1 的知识截止日期为 2024年6月，意味着它可能包含更新的学术信息，增强了其在当前学术领域的适用性。

与前代模型ChatGPT4o相比，新模型在语义理解、知识百科和上下文对话等方面表现更好，能更好地理解中文，且输出格式更便于直接使用。