Hermes 如何省token-配置

Hermes 降低 Token 消耗：全方案汇总（2026 最新）

Hermes（Nous Research Agent）通过四层记忆、渐进式加载、上下文压缩、缓存复用、模型分级、输出控制 六大核心机制，可稳定降低 30%--90% Token 消耗，以下按 "配置优先、实战可落地" 整理。

一、四层记忆架构（源头控量，最核心）

核心逻辑：分级存储、按需召回，避免全量注入上下文

L1 核心记忆（MEMORY.md）：≤800 tokens，仅存最高价值项目上下文，会话启动时冻结注入
L2 用户画像（USER.md）：≤500 tokens，记录偏好 / 习惯，固定开销
L3 长时记忆（SQLite FTS5） ：全量历史存档，检索 + 摘要召回，不直接注入原始对话
L4 技能库 ：默认仅加载名称 + 索引（≈20 tokens / 技能） ，需用时才加载完整技能效果：基础上下文固定在1500 tokens 内 ，技能库膨胀不增加基础开销，省 70%+

二、渐进式加载（技能 / 工具零冗余）

核心逻辑：三级按需加载，避免一次性全量注入

一级（默认）：仅加载技能名称 + 描述（≈20 tokens / 个）
二级（触发） ：需用时调用 skill_view(name) 加载完整技能
三级（按需） ：支撑文档 / API 仅在执行时加载工具优化 ：启用Hybrid Tool Pre-Selection （语义 + 关键词检索），仅注入 Top-K 相关工具 Schema，省 40%--60%

三、上下文压缩（长会话必开）

1. 自动压缩（config.yaml 配置）

yaml

复制代码

model:
  context_length: 200000  # 显式设模型真实窗口
  max_tokens: 131072      # 限制输出，避免超量
compression:
  threshold: 0.75         # 达75%窗口触发压缩（默认0.5太早）
  target_ratio: 0.25      # 压缩后保留25%
  protect_last_n: 30       # 保护最近30轮不压缩

效果：长会话自动压缩，省 30%--90%

2. 手动压缩命令

/compress：一键压缩历史为摘要
/budget：查看 Token 预算与消耗
启用渐进式截断 ：早期对话极简摘要、近期保留完整，压缩成本封顶≈32K tokens

四、缓存复用（重复请求省最多）

1. 系统 Prompt 缓存（Anthropic 兼容）

yaml

复制代码

prompt_caching:
  enabled: true
  cache_system_prompt: true
  ttl: 3600  # 1小时

调用 apply_anthropic_cache_control_markers，缓存部分享90% 折扣 效果：固定 System Prompt零重复消耗，省 60%--90%

2. 对话历史 LRU 缓存

yaml

复制代码

session:
  max_history_turns: 8  # 仅保留最近8轮
  enable_lru: true

淘汰最久未用历史，兼顾连贯与成本

3. 轨迹压缩缓存

yaml

复制代码

trajectory_compression:
  target_max_tokens: 4000
  summary_target_tokens: 500

对话轨迹压缩至25% 体积，保留关键语义

五、模型与输出控制（立竿见影）

1. 模型分级路由

简单任务：Haiku / 轻量模型
复杂任务：Sonnet / 中量级
仅必要时：Opus / 重量级 效果：省 30%--80%

2. 输出长度硬限制

yaml

复制代码

generation:
  max_tokens: 512    # 强制短输出，避免冗余
  temperature: 0.3    # 降低随机性，减少无效生成

效果：省 14%--75%

3. 精简输出指令

对话中加：只返回代码，无解释
配置开启minimal_output: true

六、本地 / 离线与代理优化（终极省 Token）

本地模型 ：接入 Ollama（Llama 3/CodeLlama），100% 省 API Token
代理路由 ：用 TRAE/OpenClaw 做模型调度，轻量模型做意图分类，省 30%--70%
禁用冗余模块 ：关闭自动文档生成、多轮反思，省 30%+

七、一键最优配置（复制即用）

yaml

复制代码

# ~/.hermes/config.yaml
model:
  context_length: 200000
  max_tokens: 131072
compression:
  threshold: 0.75
  target_ratio: 0.25
  protect_last_n: 30
prompt_caching:
  enabled: true
  cache_system_prompt: true
  ttl: 3600
session:
  max_history_turns: 8
  enable_lru: true
trajectory_compression:
  target_max_tokens: 4000
  summary_target_tokens: 500
generation:
  max_tokens: 512
  temperature: 0.3
tool_selection:
  hybrid_search: true
  top_k: 8

八、实战组合（按场景）

个人开发 ：四层记忆 + 自动压缩 + Prompt 缓存 → 省 80%+
大型项目 ：渐进式技能加载 + 工具预选 + 轨迹压缩 → 省 90%+
长会话 / Agent ：LRU 历史 + 渐进截断 + 模型分级 → 省 95%+