实测哪些大模型和claude code比较搭配

原生的claude确实比较好用,这点毋庸置疑。但是问题是,第一、claude禁止中国区用户使用,封的特别厉害。第二、费用非常高。那么有哪些大模型可以和claude code搭配使用呢?

在开始前,也看了很多文章,国内多个大模型都说自己达到了接近claude sonnet的能力,是真的这样么?我们今天拿事实说话------拿编程任务测试下,看看效果。

1. 怎么测?

  1. claude code + claude-code-router + open router配置各家ai
  2. 编程语言:go语言
  3. 需求提示词:
markdown 复制代码
使用go语言开发,实现一个分布式场景下的singlefight(go语言的singlefight只在单独的进程内有效),搭配redis实现,要求:
1. 实现一个完成功能包,使用时,直接导入即可使用
2. 需要包含完整集成测试,redis连接本地就行
3. 使用时支持singlefight使用的key,超时时间、缓存时间等信息

2. 测试结果

大模型 完成情况 token花费
anthropic/claude-sonnet-4 一次性完成,代码无任何问题,非常全面,非常快大概8分钟就写好了 1$左右
google/gemini-2.5-pro 完成后,存在包导入问题,提示后成功修复,也比较快和claude时间差不多 1$左右,之所以消耗这么多,是因为它重复的提示连接不上redis,不断的重复分析,导致多消耗了很多。后面启动redis服务后就好了
qwen/qwen3-coder 完成后,测试代码存在超时问题,提示后成功修复 0.3$左右
moonshotai/kimi-k2-0905 执行的过程前期看起非常顺利,后期部分始终有代码问题不能解决,自行尝试了很多轮,耗费非常长时间,最终也没能完成 1$左右
z-ai/glm-4.5 始终未能完成,耗费时间超过预期后,失去耐心,只好终止任务,未能完成 0.3$
x-ai/grok-code-fast-1 经过长时间测试,始终未能完成,后面被迫终止任务;之所以想测试它是因为,看到在openrouter上它的使用在编程方面排名第一 1$ 大量尝试导致耗费较高

经过测试,排名第一(claude-sonnet-4)和第二(google/gemini-2.5-pro)都没有疑问,让我诧异的是qwen/qwen3-coder,居然是国内大模型中表现最好的。一开始,看了很多文章都说kimi-k2-0905表现最好,它本身也支持claude code使用,但实测下来不理想。

另外,经过测试发现,有些大模型虽然价格便宜,但是在使用过程中,如果多次、始终不能解决问题。那么它的花销其实不比cluade-sonnet-4好,claude-sonnet-4好处就是省心、省时。

为了证明,我是真的实测过的,现把生成的代码目录结构贴在这里

shell 复制代码
├── claude-4
│   ├── Makefile
│   ├── README.md
│   ├── benchmark_test.go
│   ├── demo
│   │   └── performance_demo.go
│   ├── distributed_lock.go
│   ├── dump.rdb
│   ├── example
│   │   └── main.go
│   ├── go.mod
│   ├── go.sum
│   ├── integration_test.go
│   ├── singleflight.go
│   └── singleflight_test.go
├── dump.rdb
├── gemini-2.5-pro
│   ├── distributedsingleflight
│   │   ├── distributedsingleflight.go
│   │   └── distributedsingleflight_test.go
│   ├── example.go
│   ├── go.mod
│   └── go.sum
├── glm-4.5
│   ├── go.mod
│   ├── go.sum
│   └── singlefight
│       ├── README.md
│       ├── example
│       │   └── main.go
│       ├── integration_test.go
│       ├── options.go
│       └── singlefight.go
├── grok-code-fast-1
│   ├── distributed-singleflight
│   │   ├── cache.go
│   │   ├── config.go
│   │   ├── distributed_singleflight.go
│   │   ├── errors.go
│   │   ├── examples
│   │   ├── internal
│   │   ├── lock.go
│   │   └── tests
│   └── go.mod
├── kimi-k2
│   ├── distributed-singleflight
│   │   ├── README.md
│   │   ├── example
│   │   │   └── main.go
│   │   ├── go.mod
│   │   └── pkg
│   │       └── singleflight
│   │           ├── redis.go
│   │           ├── singleflight.go
│   │           ├── singleflight_clean.go
│   │           ├── singleflight_new.go
│   │           ├── singleflight_old.go
│   │           └── singleflight_test.go
│   ├── go.mod
│   ├── go.sum
│   └── pkg
│       └── singleflight
│           └── singleflight.go
└── qwen3-coder
    ├── Makefile
    ├── README.md
    ├── dump.rdb
    ├── example
    │   └── main.go
    ├── go.mod
    ├── go.sum
    ├── package.json
    ├── redis
    └── singleflight
        ├── singleflight.go
        └── singleflight_test.go

好了,上面的结果都是本人实测,希望对您了解各大ai能力有各认识,节省您选择成本。

相关推荐
老程序猿9 小时前
一个撇号里,藏得下 3 个 bit——system prompt 隐写手法拆解
ai编程·claude
leeyi10 小时前
可观测性:Langfuse、Langsmith 集成
aigc·agent·ai编程
L3S10 小时前
你的 Agent 为什么总失忆?—— Memory 设计从入门到 Claude Code
agent·claude
xiaoshuai102410 小时前
【AI 研发实战】3 个人两个月交付 512 个功能,我沉淀了这套 AI 命令体系
ai编程
ch_091811 小时前
从0构建SDK第4节:实现 ReflectionAgent 的自我反思循环
typescript·agent·ai编程
鱼疯而行11 小时前
第5章 B端与C端的真正分化机制
产品经理·ai编程
小虎AI生活1 天前
WorkBuddy 的下一块拼图,居然是这个能力!
ai编程
米小虾1 天前
联合国发布首份全球AI评估报告:我们正站在AI治理的十字路口
aigc·ai编程
Awu12271 天前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude