国产大模型 + Hermes 实测对比:DeepSeek、通义千问、Kimi、GLM 谁最好用?

DeepSeek V4 Flash 价格仅 $0.14/M tokens,通义千问 Max 中文写作碾压 GPT,Kimi 200 万上下文可以一次读完《三体》三部曲,GLM 智谱支持私有化部署......国产模型在 2026 年已经不是"平替"了,在某些场景甚至比海外模型做得更好。

但问题来了:这些模型在 Hermes Agent 上表现如何? 本文实测四款主流国产模型,覆盖编码、写作、翻译、长文档四个场景,给出选购建议。


一、参测模型与配置

1.1 模型资费一览

模型 提供商 输入价格(/M tokens) 输出价格(/M tokens) 上下文长度
DeepSeek V4 Flash DeepSeek $0.14 $0.28 1M
DeepSeek V4 Pro DeepSeek $1.74 $3.48 1M
通义千问 Max Alibaba DashScope $0.80 $3.20 256K
Kimi (moonshot-v1) 月之暗面 $0.50 $2.00 200 万
GLM-5.1 Z.AI / 智谱 $0.60 $2.40 128K
Qwen3.7-Max Alibaba DashScope $1.20 $4.80 128K

1.2 Hermes 中的配置方式

复制代码
# DeepSeek
echo 'DEEPSEEK_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider deepseek
hermes config set model.default deepseek-v4-flash

# 通义千问
echo 'DASHSCOPE_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider dashscope
hermes config set model.default qwen-max

# Kimi
echo 'KIMI_API_KEY=sk-...' >> ~/.hermes/.env
hermes config set model.provider kimi

# GLM
echo 'GLM_API_KEY=...' >> ~/.hermes/.env
hermes config set model.provider zai

二、场景实测

场景 1:编码(Python FastAPI + PostgreSQL CRUD)

任务: "创建一个用户管理模块,包含注册、登录、获取用户列表三个接口,用 FastAPI + Pydantic v2 + SQLAlchemy 2.0,写测试。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
代码正确性 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
类型注解完整性 有的缺了 ✅ 完整 部分缺了 ✅ 完整 部分缺了
测试覆盖 基本覆盖 ✅ 完整 基本覆盖 ✅ 完整 只有主路径
错误处理 基础 try-except ✅ 完整 基础 ✅ 完整 基础
首次运行通过率 85% 95% 70% 90% 75%
延迟(首 token) 0.8s 1.5s 2.0s 1.2s 1.8s

编码场景结论:

  • 首选:DeepSeek V4 Pro --- 代码质量最优,价格合理
  • 省钱选:DeepSeek V4 Flash --- 代码质量足够,价格只有 Pro 的 1/10
  • 通义千问和 Kimi 编码能力接近,但不如 DeepSeek 稳定
  • GLM 编码能力最弱,不建议用于编程

场景 2:中文技术写作(翻译 + 重写一篇英文技术文档)

任务: "把这篇英文 API 文档翻译成中文技术博客,要求:技术术语保留英文括号标注,句式用中文习惯重组,删掉啰嗦的部分。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
翻译准确度 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
中文流畅度 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
术语处理 有的没标注 ✅ 规范 ✅ 非常规范 ✅ 规范 一般
句式重构 一般 非常好 一般
啰嗦删减 不太够 很好 不太够

写作场景结论:

  • 首选:通义千问 Max --- 中文写作一骑绝尘,句式自然、术语规范
  • 次选:DeepSeek Pro / Kimi --- 都很好
  • 通义千问在中文语感上有明显优势,毕竟是阿里达摩院的底子

场景 3:长文档处理(分析一篇 8 万字的技术报告)

任务: "读这篇 8 万字的技术报告,总结核心观点,列出关键数据,指出报告中可能的偏误。"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
是否一次读完全文 ✅ 1M 上下文 ✅ 1M 上下文 ❌ 截断了 200 万上下文 ❌ 截断了
总结准确度 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ N/A(截断) ⭐⭐⭐⭐⭐ N/A
关键数据提取 ⭐⭐⭐ ⭐⭐⭐⭐ N/A ⭐⭐⭐⭐⭐ N/A
偏误识别 ⭐⭐⭐ ⭐⭐⭐⭐ N/A ⭐⭐⭐⭐ N/A

长文档场景结论:

  • 首选:Kimi --- 200 万上下文是它最独特的优势,别的模型做不到
  • 次选:DeepSeek Pro(1M 上下文也够用)
  • Kimi 适合:法律文档分析、学术论文综述、大代码库全局分析

场景 4:代码解释和调试(一个 500 行的 Legacy 代码)

任务: "下面这段 PHP Legacy 代码是干什么的?有没有 Bug?怎么重构?"

评估维度 DeepSeek Flash DeepSeek Pro 通义千问 Max Kimi GLM-5.1
代码理解 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
Bug 发现 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐
重构建议 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ ⭐⭐
安全性检查 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐ ⭐⭐

调试场景结论:

  • 首选:DeepSeek Pro --- 代码理解和 Bug 发现能力最强
  • 次选:DeepSeek Flash / Kimi --- 够用
  • DeepSeek 在代码方面的优势明显,跟它的训练数据侧重编程有关

三、综合评分

场景 冠军 亚军 省钱首选
编码 DeepSeek V4 Pro Kimi DeepSeek V4 Flash
中文写作 通义千问 Max DeepSeek Pro DeepSeek Flash
长文档 Kimi DeepSeek Pro ---
代码调试 DeepSeek V4 Pro Kimi DeepSeek V4 Flash
综合性价比 --- --- DeepSeek V4 Flash

四、最佳实践:搭配方案

方案 A:极致省钱(月费 $2-8)

复制代码
# 默认跑 Flash
model:
  default: deepseek-v4-flash
  provider: deepseek

日常编码、翻译、写作全用 DeepSeek Flash。虽然中文写作不如通义,但价格优势巨大。

方案 B:平衡方案(月费 $8-20)

利用 Profile 系统,不同任务用不同模型:

复制代码
# Profile: default → DeepSeek Flash(聊天、查资料)
# Profile: coder → DeepSeek Pro(写代码)
# Profile: writer → 通义千问 Max(写文章)
# Profile: research → Kimi(读长文档)

hermes profile create coder --clone
hermes -p coder config set model.default deepseek-v4-pro

hermes profile create writer --clone
hermes -p writer config set model.provider dashscope
hermes -p writer config set model.default qwen-max

hermes profile create research --clone
hermes -p research config set model.provider kimi

方案 C:备用链(故障转移)

复制代码
# 主用 DeepSeek,它挂了自动切通义
model:
  default: deepseek-v4-flash
  provider: deepseek

fallback_providers:
  - provider: dashscope
    model: qwen-max

五、国内用户专属建议

  1. 网络延迟:所有国产模型在国内直连延迟都很低(<1s)。DeepSeek 和通义最快。不需要代理。
  2. 价格优势:DeepSeek Flash 的 $0.14/M 是全球最低价之一,比 GPT-4o 便宜约 50 倍
  3. 中文优势:通义千问 Max 的中文写作质量优于 GPT-5 和 Claude
  4. 私密部署:GLM 支持私有化部署,适合对数据安全有要求的企业
  5. 免费额度:Kimi 和通义新用户通常赠送数百万 token 的免费额度

六、一句话总结

写代码找 DeepSeek,写文章找通义,读长文档找 Kimi,私有化部署找 GLM。

但如果你只想装一个------DeepSeek V4 Flash 的性价比让所有竞品望尘莫及,$0.14/M 的价格、1M 上下文、足够好的编码和中文能力。在 Hermes 上把它设为默认模型,一年省下的钱够买几本书了。