重磅消息!OpenAI刚刚在YouTube直播中宣布GPT-5正式发布!Sam Altman透露,GPT-5将从今天(2025年8月7日)起逐步向ChatGPT用户开放(包括免费用户,具体上线时间待定),同时也会开放API接口。现在就可以抢先体验:
- GPT-5(功能有限制)
- GPT-5-mini(限制较少) 点击下方链接即可免费试用!
直播中展示的性能对比数据(附基准测试幻灯片

来看这张PPT对比图,它展示了GPT-5"动脑子"和"不动脑子"的表现差距,还顺便吊打了之前的模型:
【编程能力测试1】SWE-bench(软件工程,一次通过率)
- GPT-5不动脑:52.8%
- GPT-5动脑:74.9% 👍直接飙升22.1%
- OpenAI老款o3:69.1%(被反超5.8%)
- GPT-4o:30.8%(差距大到不忍看)
【编程能力测试2】Aider Polyglot(多语言代码修改,二次通过率)
- GPT-5不动脑:26.7%
- GPT-5动脑:88.0% 🤯开挂式增长61.3%
- OpenAI老款o3:79.6%(优势缩小到8.4%)
- GPT-4o:25.8%(直接被甩开几条街)
简单说:用GPT-5记得打开"思考模式"!特别是做高难度编程题的时候,智商碾压模式一开,连它自己的咸鱼状态和前辈们都被秒成渣~

来看看这两个重磅测试结果:"SWE-bench实战测评"和"Aider多语言挑战",GPT-5在真实编程场景中表现超神!
【SWE-bench实战测评】(真实软件工程项目测试)
考核标准:准确率(%) vs 消耗的token数
GPT-5表现:
- 轻度依赖上下文(约2K token):59%准确率
- 普通模式(约4K token):69% 👍
- 进阶模式(约8K token):72.5% 🚀
- 深度分析(约11K token):75% 💯
OpenAI老款o3对比:
- 普通模式(约5K token):64%
- 进阶模式(约8K token):67%
- 深度分析(约14K token):69%
🔍 关键结论:
GPT-5在每个测试档位都稳稳领先5-7个点,而且用的token更少、准确率更高!
【Aider多语言挑战】
(多语言代码编辑测试)
各版本战绩:
- GPT-5:88% 🏆
- OpenAI o3:81%
- GPT-4.1:52%(惨不忍睹)
💡 重点总结:
在多语言编程任务中,GPT-5直接碾压:
- 比o3强出7%
- 把GPT-4.1甩开36%的巨大差距
一句话:要写代码就用GPT-5,精准度爆表还省资源!

【可靠性大比拼】这张PPT告诉你GPT-5为啥这么靠谱,GPT-5的"大脑开光"模式到底有多强?三组实测数据告诉你真相👇
开源知识幻觉测试(数值越低越好)
- 测试项目:LongFact概念/对象识别、FActScore事实核实
- GPT-5(思考模式):0.7% | 0.8% | 1.0% 👍
- 老款o3:4.5% | 5.1% | 5.7%(差距5-7倍!)
医学问答翻车率(测试刁钻医学问题的错误率)
- GPT-5(思考模式):1.6%
- GPT-5(普通模式):3.6%(思考模式直接减半错误)
- 老款o3:12.9%
- GPT-4o:15.8%(超过10倍差距!)
日常聊天错误率(回答出现至少一个错误的概率)
- GPT-5(思考模式):4.8%
- GPT-5(普通模式):11.6%
- GPT-4o:22.0%
- GPT-4:20.6%(错误率直接砍掉4-5倍)
终极结论:
开启GPT-5的"深度思考"模式后:
- 知识准确性提升5-10倍
- 医学错误率暴降10倍
- 日常聊天靠谱程度翻4倍
(隔壁GPT-4看了简直要哭晕)

即便处理长达256K的文本量(相当于约51万字),GPT-5的性能也几乎不会打折(相比8K文本时仅下滑约10%)。而在相同条件下:
- GPT-5的轻量版本(mini/nano)
- 同级精简模型(o3/o4-mini)
- GPT-4.1系列版本
这些模型的性能下滑幅度要大得多。这充分证明:GPT-5在超长文本理解方面展现出突破性的稳定性!
▌OpenAI官方演示会要点:
萨姆·奥尔特曼特别提到:
-
免费用户也能使用基础功能
-
GPT-5不仅是"更快的聊天机器人",更是:
✓ 跨领域的"博士级专家顾问"
✓ 可长时间深度思考复杂问题
✓ 能完整编写软件系统
✓ 协助制定重大人生/商业决策
1. 核心智能的飞跃
GPT-5在核心智能上实现了重大突破。它独创性地采用了"推理范式"技术,能够灵活把握思考节奏------既不会一味求快,也不会过度拖延。当遇到复杂问题时,系统会自动进入深度思考模式,彻底改变了用户需要在"快响应"和"慢思考"之间做选择的局面。
OpenAI首席执行官奥特曼打了个贴切的比方:如果说GPT-3像是和聪慧的高中生对话,GPT-4o如同大学生交流,那么GPT-5则达到了资深跨领域专家的水准。这些进步不仅体现在使用体验上,更反映在多项具有挑战性的学术测试中:软件工程任务(SWE-Bench Verified)准确率达74.9%,多语言编码(AiderPolyglot)取得88%的好成绩,在多模态推理(MMMU)和数学证明(AIME 2025)等前沿领域更是创下新高。
2.可靠性和安全性提升
GPT-5最大的改进之一,或许不是它的性能提升数据,而是它大幅减少了"胡编乱造"和误导性回答------这两点一直是AI的短板。OpenAI优化了它的安全机制,不再是简单粗暴地拒绝回答(比如"抱歉,我无法......"),而是能提供部分解答,同时标出潜在风险内容,并引导用户查阅权威信息。在内部测试中,GPT-5在开放式健康咨询和科学话题上的错误率明显降低,回答更加准确可靠。
3.全新的日常交互体验
GPT-5彻底升级了ChatGPT的使用方式:
(1)更灵活的访问权限
- 普通用户现在可以免费使用基础版GPT-5(有次数限制);
- Plus和Pro用户享受更高的对话额度;
- 企业和教育用户默认分配更宽松的使用上限。
(2)深入思考模式
付费用户可以开启"深度思考"功能,让AI更仔细地分析复杂问题。
(3)记忆与个性化
ChatGPT能记住你的偏好,在获得授权后,还可以关联Gmail和Google日历,帮你安排日程或撰写邮件初稿。
(4)语音与视觉升级
新版语音助手更自然,能实时翻译、辅导或头脑风暴;界面支持自定义聊天背景颜色,用户甚至能调整AI的"性格",从简洁干练到略带幽默,让对话更合心意。
4. 开发者与企业级工具升级
OpenAI这次带来了不同规格的GPT-5模型:标准版、Mini轻量版和Nano极简版,同时推出支持超长文本输入(40万字)的版本。新API功能亮点包括:
- 开发更自由:除了传统JSON格式,现在开发者可以直接用正则表达式来精确控制AI输出,满足更灵活的编程需求。
- AI操作透明化:每次调用外部工具时,GPT-5会主动说明原因,还新增"详细程度"调节(低/中/高),让结果呈现更符合需求。
- 成本更优化:标准版GPT-5每百万token输入收费1.25美元,而对时效要求高的场景选用Nano版可节省75%成本。
实际应用案例已经展现出惊人潜力:
- 医药巨头安进用它高效分析海量临床文献
- 西班牙BBVA银行将原本数周的财务分析缩短到几小时
- Oscar健康保险公司用它精准解读保险条款和病历
美国政府已批准200万公务员使用,预示着GPT-5将在公共服务领域大展拳脚。
5. 实力演示
在发布会上,GPT-5的现场编程表演惊艳全场。它能根据简单的对话指令,快速完成多种技术任务:
- 搭建Next.js数据可视化面板
- 开发包含动态角色的3D城堡探险游戏
- 实时生成"伯努利效应"物理模拟动图
最打动人心的还是卡罗莱纳的故事。这位癌症患者借助GPT-5解读复杂的活检报告,评估不同放疗方案的优缺点,还能帮她整理需要咨询医生的关键问题。这个真实案例展现了AI正在成为人们面对重大抉择时的智能助手。
6. 行业变革
GPT-5这次突破在于三大特点的完美结合:深度思考能力、自主行动力和多模态交互。这标志着AI从单纯回答问题,升级为能实际做事的智能帮手:
- 帮你策划派对并采购所需物品
- 重整老旧代码
- 提供个性化辅导
OpenAI称之为"随叫随到"的智能服务,预示着未来我们可能不再需要多个专业APP,而是通过召唤AI助手就能完成各种需求。他们通过合理的定价和安全策略,计划将GPT-5融入办公软件、编程工具、语音助手等各领域,政府部门的工作流程也将迎来智能化升级。
7.结论
OpenAI这次的做法很不一样 - 第一天就同步开放免费版和企业版GPT-5,这传递出一个明确信号:第五代大模型不再是实验室里的新玩具,而是真正成熟的智能基础设施。就像一位全能的专家同事,或是精通多语言的私人导师,更是一个持续进化的创意工作室,它正在把这一切融为一个完整的智能系统。
不管是看测试数据、现场演示,还是来自各行业的实际案例,GPT-5毫无疑问是目前最强大、最可靠、最灵活的通用人工智能。它正在拉近"今天的智能助手"和"未来的超级AI"之间的距离,让我们提前看到了更智能时代的模样。