这次更新,不是量变,是质变。
大家好,我是子昕。
今早比平时早醒了半个小时,本来想躺着刷刷短视频,结果X给我推送了一条消息:Claude Sonnet 4.5 世界上最好的编程模型发布了。

我一看就知道有大事发生了。赶紧打开公众号列表,好家伙,满屏的Claude Sonnet 4.5
。
国内这些人真是卷啊,半夜还在赶稿。 看时间戳,很多文章都是凌晨2、3点发的。
不过说实话,这次Anthropic确实放了个大招。
Claude Sonnet 4.5不仅在测试中以82%的成绩直接碾压GPT-5-Codex的74.5% ,更重要的是------ 终于不再说"你说得对"这种废话了!
硬核数据:直接吊打GPT-5
先看硬实力。
Claude 4.5在 SWE-bench Verified测试中得分77.2% (开启并行计算能到82%)。
这个测试专门考验AI处理真实GitHub PR的能力,基本就是实战水平。

对比一下:
- Claude 4.5: 82%(并行计算)
- GPT-5 Codex: 74.5%
- Claude Opus 4.1: 被自家小弟超了
- Gemini 2.5 Pro: 差距更大
这不是小幅领先,是碾压级的差距。
除了SWE-bench,在OSWorld测试 (考验AI操作电脑的能力)上,Claude 4.5得分61.4%,比Claude Sonnet 4(42.2%)提升了近20个百分点
。
这意味着它不仅会写代码,还能像人一样操作电脑------看屏幕、点鼠标、敲键盘,甚至能帮你填Excel表格。
对了,还有个夸张的数据:它能连续自主工作30小时。
两周前GPT-5 Codex说自己能干7小时,Anthropic直接来了个30小时。
这就是AI编程领域的"军备竞赛"------你说7小时,我说30小时😂
体验质变,不是量变
数据好看是一回事,但这次更新最让人兴奋的,是用户体验的质变。
我去各个社群翻了一圈,整理了大家的真实反馈。这些才是最核心的亮点:
终于不再废话了
指令遵循能力提升了一个等级。以前Claude经常来一句你说得对
、我理解你的意思
、让我来帮你......
,现在?直接给答案,简洁利落。
速度暴增
代码审查这种事,Claude 4.5只用2分钟,GPT-5 Codex得10分钟。不是快一点,是快了5倍。
更听话了
给它的指令,基本能精准执行,不会自作主张加一堆花里胡哨的功能。
更稳定
同样的提示词,多次执行结果更一致。不用担心AI"今天心情不好"给你整花活儿。
能干重活
有企业客户反馈,Claude 4.5能自主工作30多小时,期间不仅写代码,还自己搭数据库、买域名、做安全审计。真·全栈自动化工程师。
来得太及时
很多人都说,等了这么久,终于等到一个真正好用的版本。之前各种小毛病,这次基本都解决了。
Cursor的CEO直接发话:"Claude 4.5在长周期复杂任务方面,代表了最先进的编码性能。"
Anthropic联合创始人Jared Kaplan说:"人们注意到这个模型,是因为它更智能,更像同事,遇到问题并解决问题时与它一起工作很有趣。"
从"客服"到"同事",这才是本质的跃升。
价格还很良心:跟Sonnet 4一样,每百万输入token $3,输出token $15
。不涨价,还升级。
Claude Code 2.0:检查点功能终于来了
Claude 4.5发布的同时,Claude Code也更新到2.0版本。
使用claude update
命令升级后,运行/model
就能看到Sonnet已经默认更新为4.5了:

Claude Code 2.0的UI也变了,看着更清爽:

最核心的更新是检查点(Checkpoint)功能。
简单说,就是每次你输入提示词,Claude Code都会自动创建一个检查点,记录当时的代码状态。
AI给你改炸了?想试试别的方案?没问题:
- 按两次
Esc
键(或输入/rewind
命令) - 选择想回到的检查点
- 一键恢复

而且你可以灵活选择:
- 只回退对话:保留代码改动,只倒回到某个提示词
- 只回退代码:保留对话记录,只恢复文件
- 全部回退:对话和代码一起恢复
这对AI编程来说太重要了。
用命令行最大的痛点就是怕AI改着改着把好的也改坏了,现在放心大胆让它折腾,大不了一键回档。
需要注意的是:检查点只记录Claude Code直接编辑的文件,bash命令修改的不算,而且30天后自动清理。这不是Git替代品,只是"本地撤销"功能。
写在最后:说点真心话
Claude 4.5这次更新,确实强。82%的测试成绩、不再废话的体验、检查点功能......各方面都很能打。
但说实话,作为中国开发者,用Claude心里总有点别扭。
Anthropic一直对中国不友好,之前也有朋友劝我早点找平替。我也想过啊,GPT-5 Codex出来的时候也试了,但真心话------速度慢,影响效率;自主性、创意性、UI审美这些方面还是远不如Claude。
所以虽然心里别扭,但该用还得用。毕竟打工人要恰饭,效率第一。
**至于国产大模型......**怎么说呢,加油吧。不是说不好,是在AI编程这块儿,确实还有差距。希望能早点看到真正能打的国产AI编程工具,到时候咱们就不用纠结了。
明天国庆假期,正好折腾几个side project试试4.5。有点期待,也有点复杂。