Claude 4.5来了!82%碾压GPT-5,AI编程体验彻底变了

这次更新,不是量变,是质变。

大家好,我是子昕。

今早比平时早醒了半个小时,本来想躺着刷刷短视频,结果X给我推送了一条消息:Claude Sonnet 4.5 世界上最好的编程模型发布了

我一看就知道有大事发生了。赶紧打开公众号列表,好家伙,满屏的Claude Sonnet 4.5

国内这些人真是卷啊,半夜还在赶稿。 看时间戳,很多文章都是凌晨2、3点发的。

不过说实话,这次Anthropic确实放了个大招。

Claude Sonnet 4.5不仅在测试中以82%的成绩直接碾压GPT-5-Codex的74.5% ,更重要的是------ 终于不再说"你说得对"这种废话了!

硬核数据:直接吊打GPT-5

先看硬实力。

Claude 4.5在 SWE-bench Verified测试中得分77.2% (开启并行计算能到82%)。

这个测试专门考验AI处理真实GitHub PR的能力,基本就是实战水平。

对比一下:

  • Claude 4.5: 82%(并行计算)
  • GPT-5 Codex: 74.5%
  • Claude Opus 4.1: 被自家小弟超了
  • Gemini 2.5 Pro: 差距更大

这不是小幅领先,是碾压级的差距

除了SWE-bench,在OSWorld测试 (考验AI操作电脑的能力)上,Claude 4.5得分61.4%,比Claude Sonnet 4(42.2%)提升了近20个百分点

这意味着它不仅会写代码,还能像人一样操作电脑------看屏幕、点鼠标、敲键盘,甚至能帮你填Excel表格。

对了,还有个夸张的数据:它能连续自主工作30小时。

两周前GPT-5 Codex说自己能干7小时,Anthropic直接来了个30小时。

这就是AI编程领域的"军备竞赛"------你说7小时,我说30小时😂

体验质变,不是量变

数据好看是一回事,但这次更新最让人兴奋的,是用户体验的质变

我去各个社群翻了一圈,整理了大家的真实反馈。这些才是最核心的亮点:

终于不再废话了

指令遵循能力提升了一个等级。以前Claude经常来一句你说得对我理解你的意思让我来帮你......,现在?直接给答案,简洁利落。

速度暴增

代码审查这种事,Claude 4.5只用2分钟,GPT-5 Codex得10分钟。不是快一点,是快了5倍。

更听话了

给它的指令,基本能精准执行,不会自作主张加一堆花里胡哨的功能。

更稳定

同样的提示词,多次执行结果更一致。不用担心AI"今天心情不好"给你整花活儿。

能干重活

有企业客户反馈,Claude 4.5能自主工作30多小时,期间不仅写代码,还自己搭数据库、买域名、做安全审计。真·全栈自动化工程师。

来得太及时

很多人都说,等了这么久,终于等到一个真正好用的版本。之前各种小毛病,这次基本都解决了。

Cursor的CEO直接发话:"Claude 4.5在长周期复杂任务方面,代表了最先进的编码性能。"

Anthropic联合创始人Jared Kaplan说:"人们注意到这个模型,是因为它更智能,更像同事,遇到问题并解决问题时与它一起工作很有趣。"

从"客服"到"同事",这才是本质的跃升。

价格还很良心:跟Sonnet 4一样,每百万输入token $3,输出token $15。不涨价,还升级。

Claude Code 2.0:检查点功能终于来了

Claude 4.5发布的同时,Claude Code也更新到2.0版本。

使用claude update命令升级后,运行/model就能看到Sonnet已经默认更新为4.5了:

Claude Code 2.0的UI也变了,看着更清爽:

最核心的更新是检查点(Checkpoint)功能。

简单说,就是每次你输入提示词,Claude Code都会自动创建一个检查点,记录当时的代码状态。

AI给你改炸了?想试试别的方案?没问题:

  1. 按两次Esc键(或输入/rewind命令)
  2. 选择想回到的检查点
  3. 一键恢复

而且你可以灵活选择:

  • 只回退对话:保留代码改动,只倒回到某个提示词
  • 只回退代码:保留对话记录,只恢复文件
  • 全部回退:对话和代码一起恢复

这对AI编程来说太重要了。

用命令行最大的痛点就是怕AI改着改着把好的也改坏了,现在放心大胆让它折腾,大不了一键回档。

需要注意的是:检查点只记录Claude Code直接编辑的文件,bash命令修改的不算,而且30天后自动清理。这不是Git替代品,只是"本地撤销"功能。

写在最后:说点真心话

Claude 4.5这次更新,确实强。82%的测试成绩、不再废话的体验、检查点功能......各方面都很能打。

但说实话,作为中国开发者,用Claude心里总有点别扭。

Anthropic一直对中国不友好,之前也有朋友劝我早点找平替。我也想过啊,GPT-5 Codex出来的时候也试了,但真心话------速度慢,影响效率;自主性、创意性、UI审美这些方面还是远不如Claude。

所以虽然心里别扭,但该用还得用。毕竟打工人要恰饭,效率第一。

**至于国产大模型......**怎么说呢,加油吧。不是说不好,是在AI编程这块儿,确实还有差距。希望能早点看到真正能打的国产AI编程工具,到时候咱们就不用纠结了。

明天国庆假期,正好折腾几个side project试试4.5。有点期待,也有点复杂。

相关推荐
yaocheng的ai分身3 小时前
cursor 1.7更新
ai编程
yaocheng的ai分身3 小时前
重建 Devin 以适配 Claude Sonnet 4.5:经验与挑战
ai编程
yaocheng的ai分身3 小时前
Vibe Check:Claude Sonnet 4.5
ai编程
Jagger_14 小时前
掌握WBS:提升项目管理效率的实用指南
aigc·openai·ai编程
AI炼金师17 小时前
GPT-5-Codex Prompting Guide|提示词指南
aigc·ai编程·极限编程·vibecoding
Tony沈哲20 小时前
AI Coding 让我两天完成图像编辑器 Monica 的国际化与多主题
ai编程·vibecoding
SamDeepThinking20 小时前
有了 AI IDE 之后,为什么还还要 CLI?
后端·ai编程·cursor
RainbowSea1 天前
8. Spring AI tools/function-call
java·spring·ai编程
RainbowSea1 天前
7. Spring AI 对话记忆 + 结构化输出
java·spring·ai编程