实测哪些大模型和claude code比较搭配

原生的claude确实比较好用,这点毋庸置疑。但是问题是,第一、claude禁止中国区用户使用,封的特别厉害。第二、费用非常高。那么有哪些大模型可以和claude code搭配使用呢?

在开始前,也看了很多文章,国内多个大模型都说自己达到了接近claude sonnet的能力,是真的这样么?我们今天拿事实说话------拿编程任务测试下,看看效果。

1. 怎么测?

  1. claude code + claude-code-router + open router配置各家ai
  2. 编程语言:go语言
  3. 需求提示词:
markdown 复制代码
使用go语言开发,实现一个分布式场景下的singlefight(go语言的singlefight只在单独的进程内有效),搭配redis实现,要求:
1. 实现一个完成功能包,使用时,直接导入即可使用
2. 需要包含完整集成测试,redis连接本地就行
3. 使用时支持singlefight使用的key,超时时间、缓存时间等信息

2. 测试结果

大模型 完成情况 token花费
anthropic/claude-sonnet-4 一次性完成,代码无任何问题,非常全面,非常快大概8分钟就写好了 1$左右
google/gemini-2.5-pro 完成后,存在包导入问题,提示后成功修复,也比较快和claude时间差不多 1$左右,之所以消耗这么多,是因为它重复的提示连接不上redis,不断的重复分析,导致多消耗了很多。后面启动redis服务后就好了
qwen/qwen3-coder 完成后,测试代码存在超时问题,提示后成功修复 0.3$左右
moonshotai/kimi-k2-0905 执行的过程前期看起非常顺利,后期部分始终有代码问题不能解决,自行尝试了很多轮,耗费非常长时间,最终也没能完成 1$左右
z-ai/glm-4.5 始终未能完成,耗费时间超过预期后,失去耐心,只好终止任务,未能完成 0.3$
x-ai/grok-code-fast-1 经过长时间测试,始终未能完成,后面被迫终止任务;之所以想测试它是因为,看到在openrouter上它的使用在编程方面排名第一 1$ 大量尝试导致耗费较高

经过测试,排名第一(claude-sonnet-4)和第二(google/gemini-2.5-pro)都没有疑问,让我诧异的是qwen/qwen3-coder,居然是国内大模型中表现最好的。一开始,看了很多文章都说kimi-k2-0905表现最好,它本身也支持claude code使用,但实测下来不理想。

另外,经过测试发现,有些大模型虽然价格便宜,但是在使用过程中,如果多次、始终不能解决问题。那么它的花销其实不比cluade-sonnet-4好,claude-sonnet-4好处就是省心、省时。

为了证明,我是真的实测过的,现把生成的代码目录结构贴在这里

shell 复制代码
├── claude-4
│   ├── Makefile
│   ├── README.md
│   ├── benchmark_test.go
│   ├── demo
│   │   └── performance_demo.go
│   ├── distributed_lock.go
│   ├── dump.rdb
│   ├── example
│   │   └── main.go
│   ├── go.mod
│   ├── go.sum
│   ├── integration_test.go
│   ├── singleflight.go
│   └── singleflight_test.go
├── dump.rdb
├── gemini-2.5-pro
│   ├── distributedsingleflight
│   │   ├── distributedsingleflight.go
│   │   └── distributedsingleflight_test.go
│   ├── example.go
│   ├── go.mod
│   └── go.sum
├── glm-4.5
│   ├── go.mod
│   ├── go.sum
│   └── singlefight
│       ├── README.md
│       ├── example
│       │   └── main.go
│       ├── integration_test.go
│       ├── options.go
│       └── singlefight.go
├── grok-code-fast-1
│   ├── distributed-singleflight
│   │   ├── cache.go
│   │   ├── config.go
│   │   ├── distributed_singleflight.go
│   │   ├── errors.go
│   │   ├── examples
│   │   ├── internal
│   │   ├── lock.go
│   │   └── tests
│   └── go.mod
├── kimi-k2
│   ├── distributed-singleflight
│   │   ├── README.md
│   │   ├── example
│   │   │   └── main.go
│   │   ├── go.mod
│   │   └── pkg
│   │       └── singleflight
│   │           ├── redis.go
│   │           ├── singleflight.go
│   │           ├── singleflight_clean.go
│   │           ├── singleflight_new.go
│   │           ├── singleflight_old.go
│   │           └── singleflight_test.go
│   ├── go.mod
│   ├── go.sum
│   └── pkg
│       └── singleflight
│           └── singleflight.go
└── qwen3-coder
    ├── Makefile
    ├── README.md
    ├── dump.rdb
    ├── example
    │   └── main.go
    ├── go.mod
    ├── go.sum
    ├── package.json
    ├── redis
    └── singleflight
        ├── singleflight.go
        └── singleflight_test.go

好了,上面的结果都是本人实测,希望对您了解各大ai能力有各认识,节省您选择成本。

相关推荐
counterxing1 天前
Agent 跑起来之后,难的是复用、观测和评测
node.js·agent·ai编程
uccs1 天前
大模型底层机制与Agent开发
agent·ai编程·claude
counterxing1 天前
我把 Codex 里的 Skills 做成了一个 MCP,还支持分享
前端·agent·ai编程
夜雪闻竹1 天前
vectra 向量索引文件损坏怎么办
ai编程·向量·vectra
ZzT1 天前
Harness 到底指什么
openai·ai编程·claude
宅小年1 天前
AI 创业最危险的地方:太容易做出来
openai·ai编程·claude
麦客奥德彪1 天前
Android Skills
架构·ai编程
言萧凡_CookieBoty1 天前
一文讲清 RAG:让 AI 读懂业务知识库的核心方法
ai编程
kyriewen1 天前
产品经理把PRD写成“天书”,我用AI半小时重写了一遍,他当场愣住
前端·ai编程·cursor
Patrick_Wilson1 天前
知识沉淀的四层模型:从个人笔记到企业资产,让文档真正长出复利
面试·程序员·ai编程