用了一天 Claude Opus 4.7,聊几点真实感受

昨天半夜刷到 Anthropic 发 Opus 4.7 的推送,差点从床上爬起来开电脑。今天白天认真跑了一天项目,说说几点体感。

为什么是 4.7 而不是 5.0

春节前后都在传 Claude 5 要来,结果憋出来个 4.7。看完公告就明白了------A 社手里还捂着张更猛的牌叫 Mythos Preview,SWE-bench Pro 能干到 77.8%,但因为网络安全能力太强,只走 Project Glasswing 给苹果谷歌微软这种平台合作方。

所以 4.7 本质是个"阉割安全版的 Mythos"。底牌还没打,先放个中间档打市场。

编码:难题上的提升很明显

简单的增删改查,4.7 和 4.6 区别不大。但只要任务一复杂------跨文件改动、需要先理解上下文再动手------4.7 稳得多。

Cursor 官方数据:自家 CursorBench 上 4.7 跨过 70%,4.6 只有 58%。Notion 那边更直接------多步工作流比 4.6 好 14%,token 用得更少,工具调用错误率只有三分之一。更准、更省、更稳同时出现,挺罕见的。

今天最明显的改善是它开始自己验证输出了。以前改完就说"好了",现在会先想怎么检查再报告。

视觉:这次是真的跳跃

最让我意外的其实是视觉。图片分辨率上限从 1.15 兆像素直接拉到 3.75 兆像素,差不多三倍。

视觉推理分数从 69.1% 干到 82.1%,涨了 13 个点------而 4.6 相对 4.5 这项只涨了 3.3%。这是爆发式增长,不是常规迭代。扔一张密密麻麻的架构图过去,4.6 偶尔会漏箭头方向,4.7 读得非常准。XBOW 团队视觉锐度基准更夸张:从 54.5% 直接跳到 98.5%

一个容易踩的坑

价格和 4.6 一样,5/25 美金每百万 token,看着美滋滋。但 4.7 换了新 tokenizer,同样的文本会被切成更多 token,比率 1.0~1.35 倍,中文和代码场景受影响更大。加上高 effort 档位下它想得更多,输出 token 也会涨。净效应官方说是正向的,但 API 用户切过去前最好在真实流量上跑个 A/B。

该不该升级

用 API 或 Claude Code 的,升就完事了,价格没变、难题表现更好。唯一要注意的是如果代码里设置了 temperaturetop_ptop_k,这些在 4.7 上会直接 400,得切到 adaptive thinking。


说实话,4.7 相对 4.6 的提升,体感没有 4.6 相对 4.5 那么惊艳。这是模型迭代到后期的常态------分数已经够高了,再涨一个点意味着解决更多边角案例。我更期待的其实是 Mythos 什么时候正式开放。Opus 4.7 是个扎实的过渡,不惊喜,但够用、够稳、够划算。

相关推荐
IT_陈寒29 分钟前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
fliter1 小时前
最后一块拼图:用 bitvec 构造 IPv4 包,真正做出自己的 Ping
后端
fliter2 小时前
用 Rust 解析并生成 ICMP 包:checksum、nom 与 cookie-factory
后端
蝎子莱莱爱打怪2 小时前
XZLL-IM干货系列 03|消息 ID 设计:一个 UUID 搞不定的事,我用两个 ID 解决了
后端·面试·开源
fliter2 小时前
从 panic 到 Result:用 Rust 重新整理一个 ping 项目的错误处理
后端
森蓝情丶3 小时前
我给 AI 搭了个法庭:一个前端仔的 LangGraph 实战全记录
前端·后端
JensCS猿3 小时前
从 Spring Boot 回看 SSM 框架:手动挡与自动挡的驾驶哲学
后端
爱勇宝3 小时前
干了近 8 年,一夜之间被裁:AI 时代,程序员最该害怕的不是 AI
前端·后端·程序员
科米米3 小时前
嵌入式日志模块
后端
血小溅4 小时前
三大 AI 编码框架深度对比:GSD vs OpenSpec vs Superpowers
人工智能·后端