这周 AI 圈连炸两次：我把 Kimi K2.6 和 Claude Opus 4.7 都接进 OpenClaw 试了一遍

上周我的 OpenClaw 正在跑一个重构任务，跑到一半收到两条推送。4 月 16 号 Anthropic 发了 Claude Opus 4.7，然后 4 月 20 号 Moonshot 又把 Kimi K2.6 扔出来了。

我当时的第一反应：又要换模型了？

这次不一样。两个模型发布时间点太近，都在主打编程和 Agent 能力，不对比一下说不过去。花了两天把它们都接进 OpenClaw，跑了一些真实任务，说说感受。

两个模型的基本情况

Claude Opus 4.7（4 月 16 日）

Anthropic 这次就一个重点：编程。

SWE-bench Pro 64.3%，上一代 Opus 4.6 是 53.4%，涨了将近 11 个点。SWE-bench Verified 87.6%，接近九成的真实 GitHub bug 它能自己修。CursorBench 涨了 12 个点到 70%。

视觉能力提升了 3 倍（分辨率 3.75 MP），上下文 1M，最大输出 128K。

Kimi K2.6（4 月 20 日）

Moonshot 打的是"开源旗舰"的牌。

1 万亿参数 MoE 架构，每次推理只激活 320 亿参数，跑起来没那么贵。SWE-bench Pro 58.6%，SWE-bench Verified 80.2%，上下文 262K。

Agent 能力是亮点：300 个并行子 Agent，单次任务超过 4000 次工具调用，连续运行超过 12 小时。这个数字放在开源模型里是真的离谱。

价格：Moonshot API $0.60 / 0.60/$ 0.60/2.50（输入/输出，每百万 token），比 Opus 4.7 便宜大概 10 倍。

两个模型都是通过 ofox.ai 接的，一个 API Key，OpenAI 兼容格式，在 OpenClaw 的模型配置里填进去就行。

ofox 的模型页上两个都有：Kimi K2.6 是 MoonshotAI 供应商，262K 上下文；Claude Opus 4.7 是 Bedrock 供应商，1M 上下文，支持视觉、函数调用、推理、PDF 处理。国内直连，延迟比直接打 Anthropic 官方 API 低不少。

配置完在 OpenClaw 里给两个模型分别建了 Profile，然后开始跑任务。

脚本大概 800 行，逻辑比较乱，有几个地方性能很差。

Opus 4.7 的表现有点出乎意料。它不只是改了代码，还主动发现了两个我没提到的潜在 bug，在注释里解释了为什么这样改。整个过程问了我两个确认性问题，其他时间基本在自己跑。

Kimi K2.6 也完成了任务，但风格不一样。它更倾向于一次性给出完整方案，然后等我确认。改出来的代码更"干净"，但对原有逻辑的理解深度稍微浅一点------有一个边界情况没处理到，我提示了一下才补上。

这个任务需要 Agent 自己规划步骤、调用工具、处理异常。

Kimi K2.6 的优势在这里出来了。Agent 规划能力很强，会主动把任务拆成子任务然后并行处理。跑了大概 40 分钟，中间出了两次网络错误，它自己重试了，没有中断。

Opus 4.7 在这个任务上也不差，但更"谨慎"，每一步都会停下来确认一下。想要更可控的 Agent 行为，这反而是优点；想让它自己跑完，可能会觉得有点烦。

Opus 4.7 的主场。

找出了一个 SQL 注入风险和两个潜在的内存泄漏，解释得很清楚，还给出了修复建议。Kimi K2.6 也找到了 SQL 注入，但内存泄漏那两个没发现。

两天跑下来，大概是这样：

选 Claude Opus 4.7：代码质量要求高、需要深度理解上下文、安全审查和代码审计、处理超长文档或大型代码库（1M 上下文）。

选 Kimi K2.6：长时间运行的自动化 Agent 任务、需要大量并行子任务、预算有限但需要接近前沿的编程能力、想自托管（开源权重，Modified MIT License）。

Opus 4.7 是更聪明的工程师，Kimi K2.6 是更能干活的工人。看你的任务是什么。

用 Opus 4.7 的时候注意到一件事：处理长任务时它会主动管理自己的"任务预算"，不会无限制地往下跑。这个行为在 Opus 4.6 上不明显，4.7 上很清楚。

一开始以为是 bug，查了一下，这是 Anthropic 新加的 xhigh 推理级别的特性------模型会在任务开始前估算复杂度，然后分配推理资源。对于复杂任务，这个机制让输出质量更稳定。

这周两次发布，都是真材实料。

Opus 4.7 在编程基准上是目前最强的 GA 模型（SWE-bench Pro 64.3%，比 GPT-5.4 的 57.7% 高了将近 7 个点）。Kimi K2.6 是开源模型里的新标杆，58.6% 的 SWE-bench Pro 放在一年前是闭源旗舰才有的水平。

我现在的配置：日常编程任务用 Kimi K2.6（省钱），复杂重构和安全审查用 Opus 4.7（效果好）。

两个模型在 ofox.ai/zh/models 上都能直接用，OpenAI 兼容格式，接进 OpenClaw 五分钟的事。