Token 优化方案

一、面试万能开场句

Token 优化的核心目标:在不影响效果的前提下,减少输入/输出 Token 消耗,降低成本、提升速度、避免上下文溢出。


二、Token 优化全方案(面试背诵版)

1. RAG 阶段优化(最有效、最常用)

(1)控制召回数量

  • 默认召回 5~10 片,只保留最相关 2~4 片
  • 相关性低的片段直接丢弃,减少大量噪声

(2)优化分块大小

  • Chunk 不要过大:512~1024 token 最合适
  • 避免超大段文本塞进 Prompt

(3)加 Reranker 重排模型

  • 先用向量库粗召回 10~20 条
  • 再用轻量 Reranker 精排,只取 top2~3
    效果:片段更精准,数量更少,Token 大幅下降
  • 向量检索 + BM25 关键词检索结合
  • 减少不相关长文本进入上下文

(5)片段内容精简

  • 去掉无意义符号、空格、换行
  • 去掉重复段落、冗余说明
  • 结构化内容优先(表格→精简文本)

2. Prompt 层面优化(立竿见影)

(1)精简 System Prompt

  • 去掉废话、重复要求、过长示例
  • 保留核心规则:角色、约束、输出格式

(2)少用或少给 Few-shot 示例

  • 示例非常占 Token
  • 能用 1 个就不用 3 个
  • 复杂场景改用指令描述代替示例

(3)禁止模型输出废话

  • 强制要求:简洁回答、不重复、不解释、不加客套话
  • 减少输出 Token(输出也计费)

(4)历史对话窗口截断

  • 只保留最近 N 轮对话(如 3~5 轮)
  • 旧历史用 Summary 摘要 代替原始对话
    • 原始 10 轮 → 摘要后 1 轮
    • Token 直接省 70%+

3. 模型调用策略优化

(1)选择合适窗口大小的模型

  • 简单问答:用小窗口(4k/8k)
  • 长文档:用 16k/32k,不要无脑上 128k

(2)关闭不必要的流式标记/思考过程

  • 有些模型会输出大量思考内容(CoT)
  • 生产环境可关闭,只保留最终答案

(3)设置 max_tokens 合理上限

  • 避免模型疯狂输出长文本
  • 根据业务设置:问答 512,总结 1024 等

(4)缓存重复请求

  • 相同或高度相似问题直接走缓存
  • 不调用模型,Token 消耗为 0
    • 用 Redis 缓存:问题哈希 → 答案

4. 结构化与格式优化

(1)用结构化输出代替自然语言

  • JSON/XML 结构明确,模型不会乱扩展
  • 用 FunctionCall / ToolCall 强制结构,减少冗余

(2)去掉富文本、markdown 冗余

  • 不需要就禁用 ## ** - 等格式符号
  • 纯文本最省 Token

(3)关键词缩写/统一指代

  • 长专有名词统一缩写
  • 避免全文重复出现

5. 高级优化(面试加分,体现深度)

(1)Query 改写 / 问题浓缩

  • 把用户口语化长问题 → 精简专业问题
  • 减少检索与模型输入的冗余

(2)多级检索:先粗筛再精筛

  • 第一层:库/目录级过滤
  • 第二层:章节过滤
  • 第三层:最终片段召回
    进入 Prompt 的内容更少更准

(3)动态上下文长度

  • 简单问题:小窗口
  • 复杂问题:开大窗口
  • 避免固定大窗口浪费 Token

(4)使用长上下文压缩技术

  • 总结式压缩
  • 关键信息抽取
  • 句子权重过滤(保留高权重句子)

三、面试最标准流畅回答(直接背)

面试官问:怎么优化 Token 消耗?

你回答:

Token 优化主要从 RAG、Prompt、模型调用和架构四个方面入手。

  1. RAG 优化:控制召回片段数量,用 Reranker 精排只保留最相关内容,合理设置分块大小,精简文档内容,减少噪声。
  2. Prompt 优化:精简系统提示,减少或少用示例,对历史对话做窗口截断和摘要,避免长上下文堆积。
  3. 模型调用优化:选择合适窗口大小的模型,设置合理输出长度,缓存重复问题,避免无效调用。
  4. 结构化优化 :使用强制结构化输出,关闭多余格式,对长文本做摘要压缩。
    最终目标是在保证效果的前提下,减少输入输出 Token,降低成本、提升响应速度、避免上下文溢出。

四、高频追问:怎么判断哪些内容该删、哪些该留?

回答:

  • 保留高相关性、高信息密度句子
  • 删掉重复、低相关、格式化冗余、无意义填充
  • 用 Reranker 打分,低于阈值直接丢弃
  • 历史对话只保留影响当前问题的核心信息

相关推荐
xixixi777771 天前
Token 经济重构价值分配:中国移动成核心枢纽,算网安一体化按需计费普惠中小企业
人工智能·ai·大模型·云计算·算力·token·流量
TG_yunshuguoji2 天前
阿里云代理商:阿里云词元监控与优化
人工智能·阿里云·云计算·token
养肥胖虎4 天前
完整学习LLM(四):Token是什么
大模型·llm·token·学习路线
qcx235 天前
【系统学AI】02 token机制全解:LLM如何‘读懂‘人类语言
人工智能·llm·产品经理·token·费用·deepseek
weixin_553654485 天前
Claude 4.7 的“逻辑美学” vs GPT-5 的“暴力推理”:2026 核心业务代码审计该用谁?
人工智能·gpt·ai·大模型·token
格桑阿sir5 天前
04-大模型智能体开发工程师:Tokenization与模型推理流程
ai·大模型·llm·agent·token·智能体·tokenization
DO_Community8 天前
Token聚合平台 vs 传统云 vs AI原生云,AI推理应用怎么选?
人工智能·agent·token·ai-native·deepseek
创世宇图8 天前
【AI入门知识点】LLM 原理是什么?为什么 ChatGPT 看起来像“会思考”?
人工智能·ai·llm·token
BestOrNothing_201510 天前
VS Code 中 Codex 功能详解:登录、IDE上下文、Token窗口、使用额度与重连问题说明
ide·agent·token·vs code·codex·reconnection
易生一世10 天前
OpenID Connect的认证与授权详解
oauth·jwt·token·openid·pkce