用了一天 Claude Opus 4.7,聊几点真实感受

昨天半夜刷到 Anthropic 发 Opus 4.7 的推送,差点从床上爬起来开电脑。今天白天认真跑了一天项目,说说几点体感。

为什么是 4.7 而不是 5.0

春节前后都在传 Claude 5 要来,结果憋出来个 4.7。看完公告就明白了------A 社手里还捂着张更猛的牌叫 Mythos Preview,SWE-bench Pro 能干到 77.8%,但因为网络安全能力太强,只走 Project Glasswing 给苹果谷歌微软这种平台合作方。

所以 4.7 本质是个"阉割安全版的 Mythos"。底牌还没打,先放个中间档打市场。

编码:难题上的提升很明显

简单的增删改查,4.7 和 4.6 区别不大。但只要任务一复杂------跨文件改动、需要先理解上下文再动手------4.7 稳得多。

Cursor 官方数据:自家 CursorBench 上 4.7 跨过 70%,4.6 只有 58%。Notion 那边更直接------多步工作流比 4.6 好 14%,token 用得更少,工具调用错误率只有三分之一。更准、更省、更稳同时出现,挺罕见的。

今天最明显的改善是它开始自己验证输出了。以前改完就说"好了",现在会先想怎么检查再报告。

视觉:这次是真的跳跃

最让我意外的其实是视觉。图片分辨率上限从 1.15 兆像素直接拉到 3.75 兆像素,差不多三倍。

视觉推理分数从 69.1% 干到 82.1%,涨了 13 个点------而 4.6 相对 4.5 这项只涨了 3.3%。这是爆发式增长,不是常规迭代。扔一张密密麻麻的架构图过去,4.6 偶尔会漏箭头方向,4.7 读得非常准。XBOW 团队视觉锐度基准更夸张:从 54.5% 直接跳到 98.5%

一个容易踩的坑

价格和 4.6 一样,5/25 美金每百万 token,看着美滋滋。但 4.7 换了新 tokenizer,同样的文本会被切成更多 token,比率 1.0~1.35 倍,中文和代码场景受影响更大。加上高 effort 档位下它想得更多,输出 token 也会涨。净效应官方说是正向的,但 API 用户切过去前最好在真实流量上跑个 A/B。

该不该升级

用 API 或 Claude Code 的,升就完事了,价格没变、难题表现更好。唯一要注意的是如果代码里设置了 temperaturetop_ptop_k,这些在 4.7 上会直接 400,得切到 adaptive thinking。


说实话,4.7 相对 4.6 的提升,体感没有 4.6 相对 4.5 那么惊艳。这是模型迭代到后期的常态------分数已经够高了,再涨一个点意味着解决更多边角案例。我更期待的其实是 Mythos 什么时候正式开放。Opus 4.7 是个扎实的过渡,不惊喜,但够用、够稳、够划算。

相关推荐
rabbit_pro2 小时前
Python调用onnx模型
开发语言·python
王老师青少年编程2 小时前
csp信奥赛C++高频考点专项训练之贪心算法 --【线性扫描贪心】:均分纸牌
c++·算法·编程·贪心·csp·信奥赛·均分纸牌
浪客川3 小时前
【百例RUST - 010】字符串
开发语言·后端·rust
赵侃侃爱分享3 小时前
学完Python第一次写程序写了这个简单的计算器
开发语言·python
断眉的派大星4 小时前
# Python 魔术方法(魔法方法)超详细讲解
开发语言·python
2501_933329554 小时前
技术深度拆解:Infoseek舆情处置系统的全链路架构与核心实现
开发语言·人工智能·自然语言处理·架构
妮妮喔妮4 小时前
supabase的webhook报错
开发语言·前端·javascript
我的xiaodoujiao4 小时前
API 接口自动化测试详细图文教程学习系列11--Requests模块3--测试练习
开发语言·python·学习·测试工具·pytest
xiaoye-duck4 小时前
【C++:C++11】C++11新特性深度解析:从类新功能、Lambda表达式到包装器实战
开发语言·c++·c++11