Hermes 降低 Token 消耗:全方案汇总(2026 最新)
Hermes(Nous Research Agent)通过四层记忆、渐进式加载、上下文压缩、缓存复用、模型分级、输出控制 六大核心机制,可稳定降低 30%--90% Token 消耗,以下按 "配置优先、实战可落地" 整理。
一、四层记忆架构(源头控量,最核心)
核心逻辑:分级存储、按需召回,避免全量注入上下文
- L1 核心记忆(MEMORY.md):≤800 tokens,仅存最高价值项目上下文,会话启动时冻结注入
- L2 用户画像(USER.md):≤500 tokens,记录偏好 / 习惯,固定开销
- L3 长时记忆(SQLite FTS5) :全量历史存档,检索 + 摘要召回,不直接注入原始对话
- L4 技能库 :默认仅加载名称 + 索引(≈20 tokens / 技能) ,需用时才加载完整技能效果 :基础上下文固定在1500 tokens 内 ,技能库膨胀不增加基础开销,省 70%+
二、渐进式加载(技能 / 工具零冗余)
核心逻辑:三级按需加载,避免一次性全量注入
- 一级(默认):仅加载技能名称 + 描述(≈20 tokens / 个)
- 二级(触发) :需用时调用
skill_view(name)加载完整技能 - 三级(按需) :支撑文档 / API 仅在执行时加载工具优化 :启用Hybrid Tool Pre-Selection (语义 + 关键词检索),仅注入 Top-K 相关工具 Schema,省 40%--60%
三、上下文压缩(长会话必开)
1. 自动压缩(config.yaml 配置)
yaml
model:
context_length: 200000 # 显式设模型真实窗口
max_tokens: 131072 # 限制输出,避免超量
compression:
threshold: 0.75 # 达75%窗口触发压缩(默认0.5太早)
target_ratio: 0.25 # 压缩后保留25%
protect_last_n: 30 # 保护最近30轮不压缩
效果 :长会话自动压缩,省 30%--90%
2. 手动压缩命令
/compress:一键压缩历史为摘要/budget:查看 Token 预算与消耗- 启用渐进式截断 :早期对话极简摘要、近期保留完整,压缩成本封顶≈32K tokens
四、缓存复用(重复请求省最多)
1. 系统 Prompt 缓存(Anthropic 兼容)
yaml
prompt_caching:
enabled: true
cache_system_prompt: true
ttl: 3600 # 1小时
- 调用
apply_anthropic_cache_control_markers,缓存部分享90% 折扣 效果 :固定 System Prompt零重复消耗 ,省 60%--90%
2. 对话历史 LRU 缓存
yaml
session:
max_history_turns: 8 # 仅保留最近8轮
enable_lru: true
- 淘汰最久未用历史,兼顾连贯与成本
3. 轨迹压缩缓存
yaml
trajectory_compression:
target_max_tokens: 4000
summary_target_tokens: 500
- 对话轨迹压缩至25% 体积,保留关键语义
五、模型与输出控制(立竿见影)
1. 模型分级路由
- 简单任务:Haiku / 轻量模型
- 复杂任务:Sonnet / 中量级
- 仅必要时:Opus / 重量级 效果 :省 30%--80%
2. 输出长度硬限制
yaml
generation:
max_tokens: 512 # 强制短输出,避免冗余
temperature: 0.3 # 降低随机性,减少无效生成
效果 :省 14%--75%
3. 精简输出指令
- 对话中加:
只返回代码,无解释 - 配置开启
minimal_output: true
六、本地 / 离线与代理优化(终极省 Token)
- 本地模型 :接入 Ollama(Llama 3/CodeLlama),100% 省 API Token
- 代理路由 :用 TRAE/OpenClaw 做模型调度,轻量模型做意图分类,省 30%--70%
- 禁用冗余模块 :关闭自动文档生成、多轮反思,省 30%+
七、一键最优配置(复制即用)
yaml
# ~/.hermes/config.yaml
model:
context_length: 200000
max_tokens: 131072
compression:
threshold: 0.75
target_ratio: 0.25
protect_last_n: 30
prompt_caching:
enabled: true
cache_system_prompt: true
ttl: 3600
session:
max_history_turns: 8
enable_lru: true
trajectory_compression:
target_max_tokens: 4000
summary_target_tokens: 500
generation:
max_tokens: 512
temperature: 0.3
tool_selection:
hybrid_search: true
top_k: 8
八、实战组合(按场景)
- 个人开发 :四层记忆 + 自动压缩 + Prompt 缓存 → 省 80%+
- 大型项目 :渐进式技能加载 + 工具预选 + 轨迹压缩 → 省 90%+
- 长会话 / Agent :LRU 历史 + 渐进截断 + 模型分级 → 省 95%+