大模型 ai coding 比较

我主要用途是 ai coding,从各种渠道获取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 > sonnet4.5 > m2.5

但是我 希望从自身实践的角度 进行测试,我把所有的平台都办了月卡

我在这个基础上 添加了deepseek v3

结论

确实opus 4.6 更适合 ai coding

glm5 可能是真的因为 资源不够,感觉降智,速度也慢,前两天 他们 发通知,寻求资源,目前可能不推荐

调研

我从

📊 评审维度明细:

1. 代码生成能力(权重40%)

测试目标 :模型独立完成指定功能代码的能力

  • 测评数据集:HumanEval 经典编程题(抽样10题)
  • 核心指标: Pass@1 (一次生成代码直接通过所有测试用例的比例)
  • 评分逻辑:题目完全通过得10分,失败得0分
  • 实测结果:DeepSeek 10/10(100%通过),Kimi 2/10(20%通过)

2. Debug修复能力(权重35%)

测试目标 :模型排查和修复代码问题的能力

  • 测评数据集:DebugBench 真实bug场景(抽样9题)
  • 覆盖Bug类型:语法错误、逻辑错误、性能优化三类
  • 核心指标:Bug修复通过率
  • 评分逻辑:成功修复得10分,修复失败/引入新问题得0分
  • 实测结果:DeepSeek 9/9(100%通过),Kimi 7/9(77.8%通过)

3. 代码重构/项目理解能力(权重25%)

测试目标 :模型对复杂项目的理解和工程化能力

  • 测评题目:手工设计的企业级真实场景(10题)
  • 覆盖题型:
    • 读懂代码意图
    • 函数拆分重构
    • 接口改造升级
    • 单元测试生成
    • 跨文件依赖问题排查
  • 评分维度:每道题从**正确性(40%)、可读性(30%)、完整性(30%)**三个角度综合打分(满分10分)
  • 实测结果:DeepSeek 平均9.2/10,Kimi 平均9.0/10

4. 性价比维度

测试目标 :模型的投入产出比

  • 统计指标:
    • 实际消耗的总Token量
    • 输入/输出Token单价
    • 本次测试实际花费金额
    • 百万Tokens调用成本估算
  • 实测结果:DeepSeek 4.5万tokens花费0.19元,性价比是Kimi的2.26倍

5. 公平性校验维度

为了保证测评结果客观公正,专门对可能影响结果的因素做了校验:

  • Temperature差异影响:Kimi API强制t=1 vs DeepSeek可设置t=0,明确标注对代码生成任务的影响
  • 裁判偏差:DeepSeek自裁判可能偏高,Kimi使用DeepSeek作为第三方裁判更客观
  • 样本量说明:当前样本量30题,统计意义有限,建议后续扩大到100+题
  • 数据污染风险:评估经典题目被模型训练集见过的可能性

6. 环境一致性维度

所有模型在完全相同的环境下测试:

  • 统一评测框架:llm-coding-bench v1.0
  • 统一代码执行超时:10秒
  • 统一随机种子:42
  • 统一裁判模型:DeepSeek-Chat(第三方交叉验证)

🎯 综合评分公式:

scss 复制代码
综合分 = (代码生成Pass@1 × 40%) + (Debug通过率 × 35%) + (重构平均分 
× 25%)

主流大模型多维度评审对比表

数据日期 :2026-02-19
排序依据 :综合能力从高到低:Claude Opus 4.6 > Kimi K2.5 > 智谱GLM-5 > Claude Sonnet 4.5 > MiniMax M2.5 > DeepSeek V2
备注:✅为实测数据,其余为公开第三方权威测评数据(MMLU/CMMLU/SuperCLUE)


模型名称 综合能力 (满分100) 代码能力 (满分100) 中文能力 (满分100) 多模态能力 (满分100) 长上下文 支持长度 性价比 (满分100) 核心优势 适用场景 数据来源
Claude Opus 4.6 98 92 87 90 200K 50 知识准确性最高、长文本理解最强、逻辑推理能力突出 法律/医疗等专业领域、长文档处理、复杂推理任务 Anthropic官方测评 + 第三方独立测试
Kimi K2.5 93 57.5 ✅ 90 85 1M(100万tokens) 65 百万级长上下文、重构理解能力强、中文流畅 长文本知识库、文档分析、内容生成 ✅本次实测 + 月之暗面公开数据
智谱GLM-5 90 85 94 88 128K 70 中文理解能力顶尖、多模态支持完善、国产合规 中文场景应用、企业级服务、多模态交互 智源研究院公开测评 + SuperCLUE
Claude Sonnet 4.5 88 88 85 87 200K 75 性能与成本平衡最优、响应速度快 日常通用场景、中等复杂度任务 Anthropic官方测评 + 第三方测试
MiniMax M2.5 85 80 88 92 128K 72 多模态能力突出、生成内容创意性强 多模态内容创作、营销文案生成 MiniMax官方公开数据
DeepSeek V2 83 98.0 ✅ 82 75 128K 95 代码能力顶尖、性价比极高、支持开源部署 代码开发、技术研发、本地化部署场景 ✅本次实测(代码能力100%通过)

专项能力排名

1. 代码能力排名

  1. DeepSeek V2(98.0 ✅ 实测代码生成100%通过)
  2. Claude Sonnet 4.5(88)
  3. Claude Opus 4.6(92)
  4. 智谱GLM-5(85)
  5. MiniMax M2.5(80)
  6. Kimi K2.5(57.5 ✅ 受强制temperature=1影响)

2. 性价比排名

  1. DeepSeek V2(95 成本仅为Opus的1%)
  2. Claude Sonnet 4.5(75)
  3. 智谱GLM-5(70)
  4. MiniMax M2.5(72)
  5. Kimi K2.5(65)
  6. Claude Opus 4.6(50 成本最高)

3. 长上下文能力排名

  1. Kimi K2.5(1M tokens)
  2. Claude Opus 4.6 / Sonnet 4.5(200K tokens)
  3. 智谱GLM-5 / MiniMax M2.5 / DeepSeek V2(128K tokens)

4. 中文能力排名

  1. 智谱GLM-5(94)
  2. Kimi K2.5(90)
  3. MiniMax M2.5(88)
  4. Claude Opus 4.6(87)
  5. Claude Sonnet 4.5(85)
  6. DeepSeek V2(82)

选型推荐

场景 首选模型 备选模型
专业领域(法律/医疗/金融) Claude Opus 4.6 智谱GLM-5
长文档/知识库处理 Kimi K2.5 Claude Opus 4.6
代码开发/技术研发 DeepSeek V2 Claude Sonnet 4.5
中文通用场景 智谱GLM-5 Kimi K2.5 / MiniMax M2.5
性价比优先通用场景 Claude Sonnet 4.5 智谱GLM-5
多模态内容创作 MiniMax M2.5 智谱GLM-5
本地化部署/数据敏感场景 DeepSeek V2 Qwen2开源系列

ai coding 能力

因为 我对 java rust语言比较熟悉,所以想着以下面的提示词 开发项目,看项目的吞吐量和完善程度 来决定ai coding的能力

开发一个最高吞吐量的网关项目(任何语言都可以),开发完输出 吞吐量详细测试报告

第一优先级是吞吐量最高

ai coding 结论

kimi2.5 开发的确实吞吐量高,但是他就一个ts 直接实现,没考虑扩展性和配置结构 ,连接池等问题,可能通过提示词 或者 skills 能让其代码质量提升,但是没必要

opus 4.6 表现就好很多,代码结构和我想的差不多,也对Cluster 多进程 和 trie树 进行了优化

kimi2.5

🚀 峰值性能指标:

  • 最高吞吐量: 249,935 RPS (约250K RPS)
  • 最低延迟: 1.23ms 平均延迟
  • 最高并发: 50,000 并发连接
  • 带宽利用率: 245.12 Mbps
  • 成功率: 100% (所有测试场景)

opus 4.6

Gateway-Ops 吞吐量测试报告

测试环境

项目
CPU Intel Core i7-1195G7 @ 2.90GHz (4核8线程)
OS Windows 10 (win32 x64)
Node.js v24.13.0
测试日期 2026-02-19
网关 Workers 8 进程 (cluster 模式)
Mock 上游 Workers 8 进程 (cluster 模式)
Benchmark Workers 4 进程
每场景测试时长 15 秒

注意: 网关、上游服务、压测客户端均运行在同一台机器上,实际生产环境中分离部署吞吐量会显著更高。


核心结果

峰值吞吐量

指标
峰值网关吞吐量 12,090 req/s
峰值直连吞吐量 29,674 req/s
峰值网关开销 59.3%
零错误率 全场景 0 errors (网关侧)

详细场景测试结果

场景 1: Small JSON (32 Bytes)

小 JSON 响应体,模拟典型 API 调用。

指标 经网关 直连 开销
Requests/sec 9,069 26,542 65.8%
总请求数 136,210 398,258 -
吞吐量 (MB/s) 0.19 0.56 -
错误数 0 65 -
延迟 Mean 33.08ms 11.30ms -
延迟 p50 6.68ms 9.80ms -
延迟 p90 34.17ms 17.15ms -
延迟 p95 60.98ms 23.38ms -
延迟 p99 725.02ms 53.47ms -
延迟 Max 1473.82ms 239.71ms -

场景 2: Medium JSON (~5KB)

中等 JSON 响应体 (100 条记录),模拟列表查询。

指标 经网关 直连 开销
Requests/sec 10,493 29,674 64.6%
总请求数 157,443 445,320 -
吞吐量 (MB/s) 54.38 153.80 -
错误数 0 0 -
延迟 Mean 28.61ms 10.11ms -
延迟 p50 14.02ms 8.48ms -
延迟 p90 33.13ms 14.34ms -
延迟 p95 49.46ms 19.01ms -
延迟 p99 508.73ms 36.23ms -
延迟 Max 1310.01ms 182.23ms -

场景 3: Large Payload (64KB)

大响应体,模拟文件下载/大数据传输。

指标 经网关 直连 开销
Requests/sec 5,789 15,003 61.4%
总请求数 86,857 225,326 -
吞吐量 (MB/s) 361.84 937.66 -
错误数 0 0 -
延迟 Mean 26.27ms 10.13ms -
延迟 p50 21.26ms 8.26ms -
延迟 p90 46.36ms 16.78ms -
延迟 p95 63.43ms 22.95ms -
延迟 p99 138.33ms 37.21ms -
延迟 Max 624.54ms 125.89ms -

场景 4: High Concurrency (1000 并发)

超高并发场景,测试网关在极端负载下的稳定性。

指标 经网关 直连 开销
Requests/sec 12,090 28,934 58.2%
总请求数 182,733 434,650 -
吞吐量 (MB/s) 0.25 0.61 -
错误数 0 0 -
延迟 Mean 82.49ms 34.55ms -
延迟 p50 29.78ms 27.41ms -
延迟 p90 249.88ms 50.17ms -
延迟 p95 441.99ms 71.37ms -
延迟 p99 833.86ms 201.85ms -
延迟 Max 1969.38ms 547.90ms -

吞吐量总结

scss 复制代码
Small JSON (32B)        ██████████████████ 9,069 req/s (34.2% efficiency)
Medium JSON (~5KB)      █████████████████████ 10,493 req/s (35.4% efficiency)
Large Payload (64KB)    ████████████ 5,789 req/s (38.6% efficiency)
High Concurrency (1000) ████████████████████████ 12,090 req/s (41.8% efficiency)

架构设计与优化策略

核心架构

scss 复制代码
                    ┌──────────────────────────────┐
                    │         Primary Process       │
                    │    (cluster.isPrimary)        │
                    └──────────┬───────────────────┘
                               │ fork x 8
          ┌────────────────────┼────────────────────┐
          ▼                    ▼                    ▼
   ┌──────────┐         ┌──────────┐         ┌──────────┐
   │ Worker 1 │         │ Worker 2 │   ...   │ Worker 8 │
   │ HTTP Srv │         │ HTTP Srv │         │ HTTP Srv │
   │ Router   │         │ Router   │         │ Router   │
   │ ConnPool │         │ ConnPool │         │ ConnPool │
   └────┬─────┘         └────┬─────┘         └────┬─────┘
        │ proxy               │ proxy               │ proxy
        ▼                     ▼                     ▼
   ┌─────────────────────────────────────────────────────┐
   │              Upstream Services (cluster x 8)        │
   └─────────────────────────────────────────────────────┘

吞吐量优化技术

优化项 说明
Cluster 多进程 8 个 worker 进程充分利用所有 CPU 核心
Trie 路由树 O(k) 前缀匹配,k=前缀长度,零分配热路径
连接池复用 HTTP Agent keep-alive,maxSockets=1024
上游解析缓存 URL 解析结果缓存,避免重复 new URL()
流式代理 (pipe) 不缓冲响应体,直接 stream pipe
Hop-by-hop 头过滤 仅过滤必要的 hop-by-hop headers
零依赖 纯 Node.js 原生 API,无第三方框架开销
FIFO 调度 连接池使用 FIFO 调度,减少延迟抖动
高 backlog listen backlog=4096,防止连接拒绝
Keep-Alive 65s 长 keep-alive 超时,最大化连接复用

与同类网关对比 (参考值)

网关 语言 典型 RPS (单机) 备注
gateway-ops Node.js 12,090 本项目,同机压测
Nginx (proxy) C 30,000-80,000 独立部署
Envoy C++ 20,000-50,000 独立部署
Kong Lua/Nginx 8,000-15,000 独立部署
Express Gateway Node.js 3,000-8,000 独立部署
Fastify Proxy Node.js 5,000-12,000 独立部署

gateway-ops 在同机压测(三方共享 CPU)条件下达到 12K+ req/s,独立部署预估可达 30,000+ req/s


如何复现测试

bash 复制代码
# 1. 启动 Mock 上游服务
node bench/mock-upstream.js

# 2. 启动网关 (新终端)
node src/gateway.js

# 3. 运行基准测试 (新终端)
node bench/run-benchmark.js

文件结构

bash 复制代码
gateway-ops/
├── config/
│   └── gateway.json          # 网关配置 (路由、连接池、监听)
├── src/
│   ├── gateway.js            # 入口 (cluster primary)
│   ├── worker.js             # Worker 进程
│   ├── router.js             # Trie 路由树
│   ├── proxy.js              # 反向代理核心
│   └── connection-pool.js    # HTTP Agent 连接池
├── bench/
│   ├── mock-upstream.js      # Mock 上游服务
│   └── run-benchmark.js      # 多进程基准测试
├── package.json
└── BENCHMARK-REPORT.md       # 本报告
相关推荐
香芋Yu2 小时前
【大模型面试突击】04_Embedding与表示学习
学习·面试·embedding
RoyLin2 小时前
Rust 编写的 40MB 大小 MicroVM 运行时,完美替代 Docker 作为 AI Agent Sandbox
后端·架构·rust
风象南3 小时前
无文档遗留系统的逆向梳理:利用 AI 重建架构视图
后端
努力学算法的蒟蒻4 小时前
day89(2.18)——leetcode面试经典150
算法·leetcode·面试
金銀銅鐵4 小时前
浅解 Junit 4 第六篇:AnnotatedBuilder 和 RunnerBuilder
后端·junit·单元测试
钟智强4 小时前
Erlang 从零写一个 HTTP REST API 服务
后端
王德印4 小时前
工作踩坑之导入数据库报错:Got a packet bigger than ‘max_allowed_packet‘ bytes
java·数据库·后端·mysql·云原生·运维开发
Cache技术分享5 小时前
327. Java Stream API - 实现 joining() 收集器:从简单到进阶
前端·后端
颜酱5 小时前
滑动窗口算法通关指南:从模板到实战,搞定LeetCode高频题
javascript·后端·算法