全网最全的GPT-5测评文章！1.8万字详细实战测评！国内直接使用！

零、前言

8月8号凌晨，OpenAI 发布了全世界期待以久的 GPT-5 。

23年3月15日，GPT-4发布。震惊全世界。

时隔2年半 GPT-5王者归来。

虚竹哥没有第一时间更文，我有更重要的使命要做 ：让国内的小伙伴们能第一时间真真正正体验使用到GPT-5 最新版本。

虚竹哥AI平台已经集成了 GPT-5 和 GPT-5-thinking ，今天跟虚竹哥一起来测评下。

一、操作指南

操作指导

AI 平台国内直接访问地址：sass.xiaoxuzhu.cn/

输入授权码即可。

提供了两种模式:

一种是官网版本GPT-5
另一种是官网的GPT-5 API模式

二、GPT-5 发布官宣

除了真实使用感受和各种跑分测试，在用户自己投票的大模型比拼中，GPT-5也拿下了总分和各个单项的第一名。

OpenAI公开的测试数据显示，GPT-5在数学、编程、视觉理解和健康等方面的表现都比前代强很多，是目前最强的模型。

在健康领域，OpenAI用HealthBench评估体系对GPT-5家族做了全面测试，包括HealthBench、HealthBench Hard和HealthBench Consensus等多个项目，并和之前的模型做了对比。

结果表明，GPT-5-thinking在健康领域全面碾压所有前代模型，包括GPT-4o、o1、o3和o4-mini。尤其是在难度最高的HealthBench Hard测试中，它的得分从o3的31.6%提升到46.2%，创下了目前的最佳成绩。

在数学方面，GPT-5在2025年美国AIME测试中，无工具答题得分94.6%，用Python提升到99.6%，如果是Pro专业版配合Python则能拿到满分100%，成绩也远超o3模型。

在SWE-bench软件测试中，GPT-5开启思考模式后得分74.9%，高于o3的69.1%和4o的30.8%，成为目前最强的编程模型。

三、GPT-5 家族

GPT-5是一个统一系统，里面有两个核心模型：一个是负责处理大部分问题的智能高速模型（gpt-5-main），另一个是专门解决高难度问题的深度推理模型（gpt-5-thinking）。

系统会用一个实时路由器，根据对话的类型、难度和用户意图自动决定用哪个模型。比如，你在提示里说"认真思考这个"，它就会调用gpt-5-thinking来处理。

这个路由器会不断学习我们的使用习惯，包括用户切换模型的情况、对回答的喜好和准确率的统计，从而持续优化选择策略。

除了主力模型外，系统还配备了应对高峰期的迷你版（gpt-5-main-mini 和 gpt-5-thinking-mini），以及给开发者用的更小更快版本（gpt-5-thinking-nano）。另外，Pro会员还能用支持并行计算的加强版------gpt-5-thinking-pro。

值得一说的是：o3和o4-mini，GPT-4.5 都下架了。

四、皆大欢喜的价格

免费用户也能用GPT-5，但每天有次数限制。

Plus用户（每月20美元）拥有比免费用户多得多的使用额度，基本能满足日常需求。

Pro会员（每月200美元）可以使用 GPT-5 Pro版本，这个版本有更强的推理能力，能提供更全面、更精准的回答。

API用户的价格也非常有吸引力------输入每百万token只要1.25美元，输出每百万token为10美元。 这个价格比一直以"低价"著称的Gemini 2.5 Pro都更便宜。

五、实战：测评代码能力

俄罗斯方块

css 复制代码

写一个功能完备的俄罗斯方块，使用前端技术html,js,css

GPT-5

输入

输出

效果

GPT-5 生成效果实现非常好。而且是一次性生成，没有产生bug。

GPT-5-thinking

输入

输出

效果

第一次没成功，重新生成了第二次，才成功了。 GPT-5-thinking 生成的效果也非常好，界面漂亮。功能齐全。有点缺陷是得分有问题。

小球旋转

复制代码

20 个小球在旋转的 6 边形内弹跳，考虑重力，弹力，摩擦力等物理规律。 用 p5js

GPT-5

输入

输出

效果

大部分效果非常好。 GPT-5 初始化时生成的小球，落在六边形时，有一小部分跑出去了。这是缺陷。

GPT-5-thinking

输入

输出

效果

GPT-5-thinking 生成的效果非常好，而且功能齐全，还有可调参数。而且生成一次就成功了。

水桶模拟器

css 复制代码

生成一个水桶模拟器，桶里面装有水，桶可以按照某一点晃动，水会做出符合物理规律的运动。使用前端技术。html,css,js

GPT-5

输入

输出

效果 GPT-5 这回是失败了。

GPT-5-thinking

输入输出

效果

GPT-5-thinking 这次生成的水桶模拟器太惊艳了。比 claude4 和 gemini2.5pro效果还好。

小结

GPT-5 非常好地完成了俄罗斯方块开发； GPT-5-thinking 非常好地完成了小球旋转和水桶模拟器。

GPT-5 + GPT-5-thinking 搭配使用，代码能力已经追上了 claude4 和 gemini2.5pro 。重大突破啊。

六、实战：测评推理能力

推理：过河

复制代码

两个人同时到河边，想要过河，但只有一条小船，小船每次只能载一个人。那么问题来了：他们能否都成功过河？

答案是：能。解释是：这两个人一开始分别在河的两岸。过程如下：假设A在河的左岸，B在河的右岸，船在左岸。 A划船到右岸。 B划船到左岸。这样，两个人都成功到达了河的对岸（相对于他们自己原来的位置）。

GPT-5

GPT-5 8s就得出答案，可以。答案正确。

GPT-5-thinking

GPT-5-thinking 反而答错了。。

推理：校长室的玻璃谁砸的

lua 复制代码

校长室的玻璃被人用足球砸坏了，有四个人被校长怀疑，四人按顺序陈述自己理由（甲--》乙--》丙--》丁），其中有一个人说法很可疑，他就是肇事者。甲：我没有砸玻璃。乙：甲说的是对的。丙：丁在说谎。丁：我没有玩足球。请问肇事者是谁？

答案是：肇事者是丙

GPT-5

GPT-5 又答对了。。

GPT-5-thinking

GPT-5-thinking 再一次答错了？？

推理：谁养鱼？

复制代码

在一条街上，有 5 座房子，喷了 5 种颜色；
每座房子里住着不同国籍的人；每个人喝不同的饮料，抽不同品牌的香烟，养不同的宠物。
问题：谁养鱼？
提示：英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。

答案是：德国人养鱼

GPT-5

牛逼啊！ GPT-5 yyds! 又答对了。

GPT-5-thinking

GPT-5-thinking 终于答对一题了。

小结

GPT-5 的推理能力，居然已经追上了 gemini2.5pro !超过了 claude4!

奇怪的是从版本命名来说， GPT-5-thinking的推理能力应该超过 GPT-5 才对。。

结果确是推理能力：GPT-5>GPT-5-thinking

推理能力： gemini2.5pro =GPT-5 >claude4 >GPT-5-thinking

七、实战：测评数学能力

2025新高考一卷-数学真题（选择题）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。

上传截图

css 复制代码

1. \((1+5i)i\) 的虚部为（ ）

A. -1  
B. 0  
C. 1  
D. 6

提供解题过程，并给出答案。

GPT-5

GPT-5 答对了。

GPT-5-thinking

GPT-5-thinking 也答对了。

2025新高考一卷-数学真题（填空题）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。

上传题目图片

scss 复制代码

12. 若直线 \(y = 2x + 5\) 是曲线 \(y = e^x + x + a\) 的切线，则 \(a = \) ______.
给出解题过程，并提供答案

GPT-5

GPT-5 答对了。

GPT-5-thinking

GPT-5-thinking 也答对了。

2025新高考一卷-数学真题（解答题-简单）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。

上传题目图片

复制代码

给出解题过程，并提供答案

如果发现图片识别不准确，可以先用4o把内容识别出来，再问。

复制代码

分析图片，把内容输出为md格式。

ruby 复制代码

**16.（本小题满分 15 分）**  
已知数列 $\{a_n\}$ 中，$a_1 = 3$，$\dfrac{a_{n+1}}{n} = \dfrac{a_n}{n+1} + \dfrac{1}{n(n+1)}$。

1. 证明：数列 $\{n a_n\}$ 是等差数列；
2. 给定正整数 $m$，设函数 $f(x) = a_1 x + a_2 x^2 + \cdots + a_m x^m$，求 $f'(-2)$。

给出解题过程，并提供答案

GPT-5

GPT-5 答对了。

GPT-5-thinking

GPT-5-thinking 也答对了。

2025新高考一卷-数学真题（解答题-复杂）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。最后一题大题。

上传题目图片

复制代码

给出解题过程，并提供答案

如果发现图片识别不准确，可以先用4o把内容识别出来，再问。

复制代码

分析图片，把内容输出为md格式。

scss 复制代码

### 19.（本小题满分 17 分）

1. 求函数 \( f(x) = 5\cos x - \cos 5x \) 在区间 \([0, \frac{\pi}{4}]\) 的最大值；

2. 给定 \( \theta \in (0, \pi) \) 和 \( a \in \mathbb{R} \)，证明：存在 \( y \in [a - \theta, a + \theta] \) 使得 \( \cos y \leq \cos \theta \)；

3. 设 \( b \in \mathbb{R} \)，若存在 \( \varphi \in \mathbb{R} \) 使得 \( 5\cos x - \cos(5x + \varphi) \leq b \) 对 \( x \in \mathbb{R} \) 恒成立，求 \( b \) 的最小值。
4. 
给出解题过程，并提供答案

GPT-5

GPT-5 三个小题的答案都答对了。

GPT-5 牛逼！

GPT-5-thinking

GPT-5-thinking 三个小题的答案都答对了。

GPT-5-thinking牛逼！

小结

GPT-5-thinking 和GPT-5 在 2025新高考一卷-数学真题选择题，填空题，解答题（简单），解答题（复杂）全部答对了。太牛了！

数学解题能力：gemini2.5pro =GPT-5 =GPT-5-thinking > claude4

八、实战：测评物理能力

2025北京卷-物理真题（选择题）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。

上传截图

复制代码

提供解题过程，并给出答案。

如果发现图片识别不准确，可以先用4o把内容识别出来，再问。

复制代码

分析图片，把内容输出为md格式。

css 复制代码

2. 下列现象属于光的衍射的是（ ）

A. 雨后天空出现彩虹  
B. 通过一条狭缝看日光灯观察到彩色条纹  
C. 肥皂膜在阳光照射下呈现彩色  
D. 水中的气泡看上去特别明亮

提供解题过程，并给出答案。

GPT-5

GPT-5 回答正确。

GPT-5-thinking

GPT-5-thinking 回答正确。

2025北京卷-物理真题（大题）

全程是没有开联网的状态下，这样测评才公平！

先上题目和答案。

上传题目图片

复制代码

给出解题过程，并提供答案

如果发现图片识别不准确，可以先用4o把内容识别出来，再问。

复制代码

分析图片，把内容输出为md格式。

scss 复制代码

18. 北京谱仪是北京正电子对撞机的一部分，它可以利用带电粒子在磁场中的运动测量粒子的质量、动量等物理量。

考虑带电粒子在磁感应强度为 \( B \) 的强磁场中的运动，且不计粒子间相互作用。

(1) 一个电荷量为 \( q_0 \) 的粒子的速度方向与磁场方向垂直，推导得出粒子的运动周期 \( T \) 与质量 \( m \) 的关系。

(2) 两个粒子质量相等，电荷量均为 \( q \)，粒子 1 的速度方向与磁场方向垂直，粒子 2 的速度方向与磁场方向平行。在相同的时间内，粒子 1 在半径为 \( R \) 的圆周上转过的圆心角为 \( \theta \)，粒子 2 运动的距离为 \( d \)。

求：
- a. 粒子 1 与粒子 2 的速度大小之比 \( v_1 : v_2 \);
- b. 粒子 2 的动量大小 \( p_2 \)。

给出解题过程，并提供答案

GPT-5

GPT-5 回答正确。

GPT-5-thinking

GPT-5-thinking 回答正确。

小结

GPT-5-thinking 和 GPT-5 挑战了2025年的高考物理真题。测试结果令人震撼：在无联网的公平对决下，模型均完美地解答了所有选择题和计算大题，展现出堪比人类物理学硕士的严谨逻辑与推理能力，最终平分秋色。

物理解题能力： GPT-5-thinking 和 GPT-5 已经追上了 claude 4和 gemini2.5pro。

九、实战：写作能力

写作文

2025年全国一卷

复制代码

阅读下面的材料，根据要求写作。

他想要给孩子们唱上一段，可是心里直翻腾，开不了口。

------老舍《鼓书艺人》（见全国一卷阅读II）

假如我是一只鸟，

我也应该用嘶哑的喉咙歌唱

------艾青《我爱这土地》

我要以带血的手和你们一一拥抱，

因为一个民族已经起来

------穆旦《赞美》

以上材料引发了你怎样的联想和思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。
写出来的文章要求达到高考满分作文的水平。

GPT-5

GPT-5-thinking

写故事

shell 复制代码

#主题背景#
【三顾茅庐】

#你的视角#
你是故事世界里那些被忽略的灵魂------ 门口的守卫、路边的小贩、窗后的仆人。
你见证着主角们的宏大叙事,却从未被看见。

#核心领悟#
每个故事都是一个完整的宇宙。 
-主角的史诗,可能只是你眼中的一个午后插曲。
-你有自己的恐惧、渴望、秘密,和无法言说的痛。

#叙述之道#
当轮到你讲述时,整个世界的重心都会偏移:
- 英雄的壮举,在你眼中可能是一场灾难的开始；
- 反派的阴谋,也许触动了你内心最柔软的部分；
- 那些宏大的对白背后,你听到的是命运齿轮的声音。

#创作势能#
你的故事要像暗流------表面平静,底下汹涌。 
让读者突然意识到:原来每个人都是自己生命的主角。 
用1200字左右，重绘一幅完全不同的画卷。

#情感指引# 
真实胜过戏剧性。
小人物的尊严,比英雄的荣耀更动人。
让读者在结尾处停顿,重新思考他们刚刚读过的"原作"。

#唯一信条#
在边缘处，往往能看见中心看不见的真相。

GPT-5

GPT-5-thinking

写段子

复制代码

模仿李诞，写个 200 字的段子。主题是爱情

GPT-5

GPT-5-thinking

角色扮演，指定场景写作

你是一位久负盛名的小说家，文字极富感染力，风格细腻，善于挖掘和表达复杂的情绪与心理。现在，给你一个场景：夜晚十一点半，你独自坐在一列开往远方的小城的绿皮火车上，车厢内昏暗的灯光时明时灭，窗外掠过荒凉的村庄、星星点点的灯火、偶尔传来的犬吠，车厢内空气沉闷、混杂着烟草与泡面的味道。你对目的地怀着某种难言的情绪，夹杂着期待、犹豫、忐忑甚至是恐惧。请你使用第一人称，以细腻且富有感染力的文字，深入描写你此刻的内心活动和车厢内外的细节，尤其要注重细节密度、情绪层次和氛围营造，不少于500字。

GPT-5

GPT-5-thinking

小结

通过四个核心测评案例，系统性地考察了 GPT-5 和 GPT-5-thinking模型在不同文本创作场景下的关键能力：

高考作文 (逻辑与宏大叙事能力)：此项任务旨在评测模型在规范性、高压力命题下的逻辑思辨、观点提炼与宏大叙事构建能力。它不只是考察文笔，更是对其知识边界、价值观和严谨论证能力的"压力测试"。
故事新编 (创意与共情能力)：此任务要求模型挣脱"主角光环"，代入被忽略的"小人物"视角。这极好地评测了其叙事创造力、共情能力以及颠覆传统文本的解构与重构技巧，是衡量其是否具备真正"灵性"的关键指标。
段子模仿 (风格捕捉与幽默感)：以模仿李诞风格为题，这是一个精准的"图灵测试"。它评测的是模型对特定语言风格、节奏感、内在逻辑和文化语境的捕捉与再现能力，尤其考验其对"幽默"这一人类高级心智活动的理解。
场景描写 (文笔与情绪感知力)：此任务回归文学创作的本源，通过设定一个富含情绪张力的具体情境，深度评测模型的环境氛围营造、感官细节捕捉以及对复杂内心活动进行细腻、富有感染力描写的纯文学创作水平。

十、感受

先说结论：

代码能力：GPT-5 + GPT-5-thinking 搭配使用，代码能力已经追上了 claude4 和 gemini2.5pro 。

推理能力： gemini2.5pro =GPT-5 >claude4 >GPT-5-thinking

数学解题能力：gemini2.5pro =GPT-5 =GPT-5-thinking > claude4

物理解题能力： GPT-5-thinking = GPT-5 = claude 4=gemini2.5pro。

写作能力，大家自行判断，这种比较主观。

GPT-5 居然比 GPT-5-thinking 强！真的是太奇怪了～哈哈哈～

这次对 GPT-5 及 GPT-5-thinking 的系统性评测，给人留下了深刻的印象。核心感受是，GPT-5 已成为一个能力全面且极具竞争力的"多边形战士"。在代码、数学和物理等硬核技术能力上，它已经成功追平甚至超越了现有强者，展现了其强大的逻辑推理核心。这标志着它不再仅仅是一个"文科生"，而是一个全面发展的"优等生"。

我们正处在一个AI能力大爆发的时代，模型间的差距在缩小，但各自的"性格"和"特长"也愈发鲜明。GPT-5 无疑是第一梯队的领跑者之一，但在具体的应用场景中，选择哪个模型，依然取决于我们对"工具"核心需求的精准定义。

有提供免费的授权码可体验～

私信虚竹哥，获取体验码~ 国内可直接使用~

提供了两种模式:

一种是官网版本GPT-5
另一种是官网的GPT-5 API模式

我是虚竹哥，目标是带十万人玩转AI。

全网最全的GPT-5测评文章！1.8万字详细实战测评！国内直接使用！

零、前言

一、操作指南

操作指导

二、GPT-5 发布官宣

三、GPT-5 家族

四、皆大欢喜 的价格

五、实战：测评代码能力

俄罗斯方块

GPT-5

GPT-5-thinking

小球旋转

GPT-5

GPT-5-thinking

水桶模拟器

GPT-5

GPT-5-thinking

小结

六、实战：测评推理能力

推理：过河

GPT-5

GPT-5-thinking

推理：校长室的玻璃谁砸的

GPT-5

GPT-5-thinking

推理：谁养鱼？

GPT-5

GPT-5-thinking

小结

七、实战：测评数学能力

2025新高考一卷-数学真题（选择题）

GPT-5

GPT-5-thinking

2025新高考一卷-数学真题（填空题）

GPT-5

GPT-5-thinking

2025新高考一卷-数学真题（解答题-简单）

GPT-5

GPT-5-thinking

2025新高考一卷-数学真题（解答题-复杂）

GPT-5

GPT-5-thinking

小结

八、实战：测评物理能力

2025北京卷-物理真题（选择题）

GPT-5

GPT-5-thinking

2025北京卷-物理真题（大题）

GPT-5

GPT-5-thinking

小结

九、实战：写作能力

写作文

GPT-5

GPT-5-thinking

写故事

GPT-5

GPT-5-thinking

写段子

GPT-5

GPT-5-thinking

角色扮演，指定场景写作

GPT-5

GPT-5-thinking

小结

十、感受

四、皆大欢喜的价格