Claude 4.5来了！82%碾压GPT-5，AI编程体验彻底变了

这次更新，不是量变，是质变。

大家好，我是子昕。

今早比平时早醒了半个小时，本来想躺着刷刷短视频，结果X给我推送了一条消息：Claude Sonnet 4.5 世界上最好的编程模型发布了。

我一看就知道有大事发生了。赶紧打开公众号列表，好家伙，满屏的Claude Sonnet 4.5。

国内这些人真是卷啊，半夜还在赶稿。 看时间戳，很多文章都是凌晨2、3点发的。

不过说实话，这次Anthropic确实放了个大招。

Claude Sonnet 4.5不仅在测试中以82%的成绩直接碾压GPT-5-Codex的74.5% ，更重要的是------ 终于不再说"你说得对"这种废话了！

硬核数据：直接吊打GPT-5

先看硬实力。

Claude 4.5在 SWE-bench Verified测试中得分77.2% （开启并行计算能到82%）。

这个测试专门考验AI处理真实GitHub PR的能力，基本就是实战水平。

对比一下：

Claude 4.5: 82%（并行计算）
GPT-5 Codex: 74.5%
Claude Opus 4.1: 被自家小弟超了
Gemini 2.5 Pro: 差距更大

这不是小幅领先，是碾压级的差距。

除了SWE-bench，在OSWorld测试 （考验AI操作电脑的能力）上，Claude 4.5得分61.4%，比Claude Sonnet 4（42.2%）提升了近20个百分点。

这意味着它不仅会写代码，还能像人一样操作电脑------看屏幕、点鼠标、敲键盘，甚至能帮你填Excel表格。

对了，还有个夸张的数据：它能连续自主工作30小时。

两周前GPT-5 Codex说自己能干7小时，Anthropic直接来了个30小时。

这就是AI编程领域的"军备竞赛"------你说7小时，我说30小时😂

体验质变，不是量变

数据好看是一回事，但这次更新最让人兴奋的，是用户体验的质变。

我去各个社群翻了一圈，整理了大家的真实反馈。这些才是最核心的亮点：

终于不再废话了

指令遵循能力提升了一个等级。以前Claude经常来一句你说得对、我理解你的意思、让我来帮你......，现在？直接给答案，简洁利落。

速度暴增

代码审查这种事，Claude 4.5只用2分钟，GPT-5 Codex得10分钟。不是快一点，是快了5倍。

更听话了

给它的指令，基本能精准执行，不会自作主张加一堆花里胡哨的功能。

更稳定

同样的提示词，多次执行结果更一致。不用担心AI"今天心情不好"给你整花活儿。

能干重活

有企业客户反馈，Claude 4.5能自主工作30多小时，期间不仅写代码，还自己搭数据库、买域名、做安全审计。真·全栈自动化工程师。

来得太及时

很多人都说，等了这么久，终于等到一个真正好用的版本。之前各种小毛病，这次基本都解决了。

Cursor的CEO直接发话："Claude 4.5在长周期复杂任务方面，代表了最先进的编码性能。"

Anthropic联合创始人Jared Kaplan说："人们注意到这个模型，是因为它更智能，更像同事，遇到问题并解决问题时与它一起工作很有趣。"

从"客服"到"同事"，这才是本质的跃升。

价格还很良心：跟Sonnet 4一样，每百万输入token $3，输出token $15。不涨价，还升级。

Claude Code 2.0：检查点功能终于来了

Claude 4.5发布的同时，Claude Code也更新到2.0版本。

使用claude update命令升级后，运行/model就能看到Sonnet已经默认更新为4.5了：

Claude Code 2.0的UI也变了，看着更清爽：

最核心的更新是检查点（Checkpoint）功能。

简单说，就是每次你输入提示词，Claude Code都会自动创建一个检查点，记录当时的代码状态。

AI给你改炸了？想试试别的方案？没问题：

按两次Esc键（或输入/rewind命令）
选择想回到的检查点
一键恢复

而且你可以灵活选择：

只回退对话：保留代码改动，只倒回到某个提示词
只回退代码：保留对话记录，只恢复文件
全部回退：对话和代码一起恢复

这对AI编程来说太重要了。

用命令行最大的痛点就是怕AI改着改着把好的也改坏了，现在放心大胆让它折腾，大不了一键回档。

需要注意的是：检查点只记录Claude Code直接编辑的文件，bash命令修改的不算，而且30天后自动清理。这不是Git替代品，只是"本地撤销"功能。

写在最后：说点真心话

Claude 4.5这次更新，确实强。82%的测试成绩、不再废话的体验、检查点功能......各方面都很能打。

但说实话，作为中国开发者，用Claude心里总有点别扭。

Anthropic一直对中国不友好，之前也有朋友劝我早点找平替。我也想过啊，GPT-5 Codex出来的时候也试了，但真心话------速度慢，影响效率；自主性、创意性、UI审美这些方面还是远不如Claude。

所以虽然心里别扭，但该用还得用。毕竟打工人要恰饭，效率第一。

**至于国产大模型......**怎么说呢，加油吧。不是说不好，是在AI编程这块儿，确实还有差距。希望能早点看到真正能打的国产AI编程工具，到时候咱们就不用纠结了。

明天国庆假期，正好折腾几个side project试试4.5。有点期待，也有点复杂。