上周我的 OpenClaw 正在跑一个重构任务,跑到一半收到两条推送。4 月 16 号 Anthropic 发了 Claude Opus 4.7,然后 4 月 20 号 Moonshot 又把 Kimi K2.6 扔出来了。
我当时的第一反应:又要换模型了?
这次不一样。两个模型发布时间点太近,都在主打编程和 Agent 能力,不对比一下说不过去。花了两天把它们都接进 OpenClaw,跑了一些真实任务,说说感受。
两个模型的基本情况
Claude Opus 4.7(4 月 16 日)
Anthropic 这次就一个重点:编程。
SWE-bench Pro 64.3%,上一代 Opus 4.6 是 53.4%,涨了将近 11 个点。SWE-bench Verified 87.6%,接近九成的真实 GitHub bug 它能自己修。CursorBench 涨了 12 个点到 70%。
视觉能力提升了 3 倍(分辨率 3.75 MP),上下文 1M,最大输出 128K。
Kimi K2.6(4 月 20 日)
Moonshot 打的是"开源旗舰"的牌。
1 万亿参数 MoE 架构,每次推理只激活 320 亿参数,跑起来没那么贵。SWE-bench Pro 58.6%,SWE-bench Verified 80.2%,上下文 262K。
Agent 能力是亮点:300 个并行子 Agent,单次任务超过 4000 次工具调用,连续运行超过 12 小时。这个数字放在开源模型里是真的离谱。
价格:Moonshot API <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.60 / 0.60/ </math>0.60/2.50(输入/输出,每百万 token),比 Opus 4.7 便宜大概 10 倍。
怎么接进 OpenClaw 的
两个模型都是通过 ofox.ai 接的,一个 API Key,OpenAI 兼容格式,在 OpenClaw 的模型配置里填进去就行。
ofox 的模型页上两个都有:Kimi K2.6 是 MoonshotAI 供应商,262K 上下文;Claude Opus 4.7 是 Bedrock 供应商,1M 上下文,支持视觉、函数调用、推理、PDF 处理。国内直连,延迟比直接打 Anthropic 官方 API 低不少。
配置完在 OpenClaw 里给两个模型分别建了 Profile,然后开始跑任务。
实际跑下来的感受
任务一:重构一个 Python 数据处理脚本
脚本大概 800 行,逻辑比较乱,有几个地方性能很差。
Opus 4.7 的表现有点出乎意料。它不只是改了代码,还主动发现了两个我没提到的潜在 bug,在注释里解释了为什么这样改。整个过程问了我两个确认性问题,其他时间基本在自己跑。
Kimi K2.6 也完成了任务,但风格不一样。它更倾向于一次性给出完整方案,然后等我确认。改出来的代码更"干净",但对原有逻辑的理解深度稍微浅一点------有一个边界情况没处理到,我提示了一下才补上。
任务二:写一个多步骤的爬虫 Agent
这个任务需要 Agent 自己规划步骤、调用工具、处理异常。
Kimi K2.6 的优势在这里出来了。Agent 规划能力很强,会主动把任务拆成子任务然后并行处理。跑了大概 40 分钟,中间出了两次网络错误,它自己重试了,没有中断。
Opus 4.7 在这个任务上也不差,但更"谨慎",每一步都会停下来确认一下。想要更可控的 Agent 行为,这反而是优点;想让它自己跑完,可能会觉得有点烦。
任务三:代码审查 + 安全检查
Opus 4.7 的主场。
找出了一个 SQL 注入风险和两个潜在的内存泄漏,解释得很清楚,还给出了修复建议。Kimi K2.6 也找到了 SQL 注入,但内存泄漏那两个没发现。
各自适合什么场景
两天跑下来,大概是这样:
选 Claude Opus 4.7:代码质量要求高、需要深度理解上下文、安全审查和代码审计、处理超长文档或大型代码库(1M 上下文)。
选 Kimi K2.6:长时间运行的自动化 Agent 任务、需要大量并行子任务、预算有限但需要接近前沿的编程能力、想自托管(开源权重,Modified MIT License)。
Opus 4.7 是更聪明的工程师,Kimi K2.6 是更能干活的工人。看你的任务是什么。
一个小发现
用 Opus 4.7 的时候注意到一件事:处理长任务时它会主动管理自己的"任务预算",不会无限制地往下跑。这个行为在 Opus 4.6 上不明显,4.7 上很清楚。
一开始以为是 bug,查了一下,这是 Anthropic 新加的 xhigh 推理级别的特性------模型会在任务开始前估算复杂度,然后分配推理资源。对于复杂任务,这个机制让输出质量更稳定。
总结
这周两次发布,都是真材实料。
Opus 4.7 在编程基准上是目前最强的 GA 模型(SWE-bench Pro 64.3%,比 GPT-5.4 的 57.7% 高了将近 7 个点)。Kimi K2.6 是开源模型里的新标杆,58.6% 的 SWE-bench Pro 放在一年前是闭源旗舰才有的水平。
我现在的配置:日常编程任务用 Kimi K2.6(省钱),复杂重构和安全审查用 Opus 4.7(效果好)。
两个模型在 ofox.ai/zh/models 上都能直接用,OpenAI 兼容格式,接进 OpenClaw 五分钟的事。