这周 AI 圈连炸两次:我把 Kimi K2.6 和 Claude Opus 4.7 都接进 OpenClaw 试了一遍

上周我的 OpenClaw 正在跑一个重构任务,跑到一半收到两条推送。4 月 16 号 Anthropic 发了 Claude Opus 4.7,然后 4 月 20 号 Moonshot 又把 Kimi K2.6 扔出来了。

我当时的第一反应:又要换模型了?

这次不一样。两个模型发布时间点太近,都在主打编程和 Agent 能力,不对比一下说不过去。花了两天把它们都接进 OpenClaw,跑了一些真实任务,说说感受。


两个模型的基本情况

Claude Opus 4.7(4 月 16 日)

Anthropic 这次就一个重点:编程。

SWE-bench Pro 64.3%,上一代 Opus 4.6 是 53.4%,涨了将近 11 个点。SWE-bench Verified 87.6%,接近九成的真实 GitHub bug 它能自己修。CursorBench 涨了 12 个点到 70%。

视觉能力提升了 3 倍(分辨率 3.75 MP),上下文 1M,最大输出 128K。

Kimi K2.6(4 月 20 日)

Moonshot 打的是"开源旗舰"的牌。

1 万亿参数 MoE 架构,每次推理只激活 320 亿参数,跑起来没那么贵。SWE-bench Pro 58.6%,SWE-bench Verified 80.2%,上下文 262K。

Agent 能力是亮点:300 个并行子 Agent,单次任务超过 4000 次工具调用,连续运行超过 12 小时。这个数字放在开源模型里是真的离谱。

价格:Moonshot API <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.60 / 0.60/ </math>0.60/2.50(输入/输出,每百万 token),比 Opus 4.7 便宜大概 10 倍。


怎么接进 OpenClaw 的

两个模型都是通过 ofox.ai 接的,一个 API Key,OpenAI 兼容格式,在 OpenClaw 的模型配置里填进去就行。

ofox 的模型页上两个都有:Kimi K2.6 是 MoonshotAI 供应商,262K 上下文;Claude Opus 4.7 是 Bedrock 供应商,1M 上下文,支持视觉、函数调用、推理、PDF 处理。国内直连,延迟比直接打 Anthropic 官方 API 低不少。

配置完在 OpenClaw 里给两个模型分别建了 Profile,然后开始跑任务。


实际跑下来的感受

任务一:重构一个 Python 数据处理脚本

脚本大概 800 行,逻辑比较乱,有几个地方性能很差。

Opus 4.7 的表现有点出乎意料。它不只是改了代码,还主动发现了两个我没提到的潜在 bug,在注释里解释了为什么这样改。整个过程问了我两个确认性问题,其他时间基本在自己跑。

Kimi K2.6 也完成了任务,但风格不一样。它更倾向于一次性给出完整方案,然后等我确认。改出来的代码更"干净",但对原有逻辑的理解深度稍微浅一点------有一个边界情况没处理到,我提示了一下才补上。

任务二:写一个多步骤的爬虫 Agent

这个任务需要 Agent 自己规划步骤、调用工具、处理异常。

Kimi K2.6 的优势在这里出来了。Agent 规划能力很强,会主动把任务拆成子任务然后并行处理。跑了大概 40 分钟,中间出了两次网络错误,它自己重试了,没有中断。

Opus 4.7 在这个任务上也不差,但更"谨慎",每一步都会停下来确认一下。想要更可控的 Agent 行为,这反而是优点;想让它自己跑完,可能会觉得有点烦。

任务三:代码审查 + 安全检查

Opus 4.7 的主场。

找出了一个 SQL 注入风险和两个潜在的内存泄漏,解释得很清楚,还给出了修复建议。Kimi K2.6 也找到了 SQL 注入,但内存泄漏那两个没发现。


各自适合什么场景

两天跑下来,大概是这样:

选 Claude Opus 4.7:代码质量要求高、需要深度理解上下文、安全审查和代码审计、处理超长文档或大型代码库(1M 上下文)。

选 Kimi K2.6:长时间运行的自动化 Agent 任务、需要大量并行子任务、预算有限但需要接近前沿的编程能力、想自托管(开源权重,Modified MIT License)。

Opus 4.7 是更聪明的工程师,Kimi K2.6 是更能干活的工人。看你的任务是什么。


一个小发现

用 Opus 4.7 的时候注意到一件事:处理长任务时它会主动管理自己的"任务预算",不会无限制地往下跑。这个行为在 Opus 4.6 上不明显,4.7 上很清楚。

一开始以为是 bug,查了一下,这是 Anthropic 新加的 xhigh 推理级别的特性------模型会在任务开始前估算复杂度,然后分配推理资源。对于复杂任务,这个机制让输出质量更稳定。


总结

这周两次发布,都是真材实料。

Opus 4.7 在编程基准上是目前最强的 GA 模型(SWE-bench Pro 64.3%,比 GPT-5.4 的 57.7% 高了将近 7 个点)。Kimi K2.6 是开源模型里的新标杆,58.6% 的 SWE-bench Pro 放在一年前是闭源旗舰才有的水平。

我现在的配置:日常编程任务用 Kimi K2.6(省钱),复杂重构和安全审查用 Opus 4.7(效果好)。

两个模型在 ofox.ai/zh/models 上都能直接用,OpenAI 兼容格式,接进 OpenClaw 五分钟的事。

相关推荐
nebula-AI2 小时前
llm wiki的固定提示词
人工智能·ai·个人开发·ai编程
好多渔鱼好多2 小时前
【AI编程工具】华为CodeArts Snap 极速上手指南:从安装到高效编码
ai编程·华为snap
AI技术社区2 小时前
Claude Code源码分析之提示词工程
java·开发语言·ai·ai编程
好多渔鱼好多2 小时前
【AI编程工具】华为CodeArts Snap 实战进阶:从后端接口生成到鸿蒙 ArkTS 深度适配
ai编程·华为snap
六月的可乐2 小时前
快速搭建 AI 客服系统:用 AI-Agent-Node + AISuspendedBallChat 打造可落地的智能客服方案
人工智能·gpt·ai·ai编程
Mr -老鬼2 小时前
EasyClick iOS版 CLI 与 Trae iOS版智能体
ios·自动化·ai编程·tare·ec·easyclick·易点云测
不做超级小白2 小时前
白嫖计划之LongCat一日体验
ai编程·claude code·longcat
怕浪猫3 小时前
第16章 、LangChain错误处理与鲁棒性设计
langchain·openai·ai编程
恋猫de小郭3 小时前
为什么 Github Copilot 要收集你数据,也是 AI 订阅以前便宜的原因
前端·人工智能·ai编程