详细讲解 AI 上下文（Context）

一、核心定义

二、两大核心概念

[1. 上下文窗口（Context Window）](#1. 上下文窗口（Context Window）)

[2. 输入上下文 vs 输出上下文](#2. 输入上下文 vs 输出上下文)

三、上下文的工作流程（完整对话链路）

四、上下文的分类

[1. 按使用场景划分](#1. 按使用场景划分)

[（1）对话上下文（日常聊天 / 助手）](#（1）对话上下文（日常聊天 / 助手）)

[（2）文档 / 知识库上下文（RAG 检索增强）](#（2）文档 / 知识库上下文（RAG 检索增强）)

[（3）指令上下文（Prompt 工程）](#（3）指令上下文（Prompt 工程）)

[2. 按生命周期划分](#2. 按生命周期划分)

五、上下文的核心限制与问题

[1. 长度限制（最主要痛点）](#1. 长度限制（最主要痛点）)

[2. 位置偏差（上下文漂移）](#2. 位置偏差（上下文漂移）)

[3. 冗余与干扰](#3. 冗余与干扰)

[4. 成本问题](#4. 成本问题)

六、主流优化方案（行业通用技术）

[1. 上下文压缩 / 摘要](#1. 上下文压缩 / 摘要)

[2. 滑动窗口（Sliding Window）](#2. 滑动窗口（Sliding Window）)

[3. RAG 检索增强（解决超长文档）](#3. RAG 检索增强（解决超长文档）)

[4. 长上下文模型专项优化](#4. 长上下文模型专项优化)

[5. 手动清空 / 重置上下文](#5. 手动清空 / 重置上下文)

七、日常使用实操技巧

[1. 想让 AI 记住关键要求](#1. 想让 AI 记住关键要求)

[2. 对话变多、回答跑偏时](#2. 对话变多、回答跑偏时)

[3. 处理长文本 / 代码](#3. 处理长文本 / 代码)

[4. 精准引用历史内容](#4. 精准引用历史内容)

八、补充：易混淆概念区分

总结一句话

一、核心定义

AI 上下文（Context Window / 对话上下文） ，简单说就是大模型能 "记住" 的当前对话 / 任务里的全部历史信息，包括：你之前发的提问、AI 的回复、指令、参考资料、格式要求等。

模型并非拥有真正记忆，它只是把历史对话文本拼接成一段长输入，连同最新问题一起送入模型推理，以此实现 "连贯对话"。

二、两大核心概念

1. 上下文窗口（Context Window）

这是最关键指标，单位一般是 Token（令牌）。

Token ：AI 理解文本的最小单位，中文约 1 个 Token ≈ 0.5~1 个汉字，英文 1 个单词≈1~2 Token。
窗口大小 ：代表模型一次性最多能处理的总 Token 上限（历史对话 + 新提问 + 输出内容总和）。

举例：

4K 上下文：总容量约 4096 Token，适合日常短对话；
16K/32K/128K 长上下文：可容纳整篇文档、代码、万字长文、多轮长对话。

规则：一旦对话总 Token 超过窗口上限，模型会自动截断最早的历史内容 ，前端表现就是：前面的聊天内容 AI 彻底 "忘了"。

2. 输入上下文 vs 输出上下文

输入上下文 ：所有历史对话、参考文档、系统提示词（System Prompt），是喂给模型的 "已知信息"；
输出上下文 ：模型本轮生成的回答，回答结束后会自动追加到历史上下文，成为下一轮对话的输入。

系统提示词（System Prompt） ：属于常驻上下文，优先级最高。比如 "你是一名 Java 技术专家，回答简洁专业"，会一直存在于上下文头部，几乎不会被截断。

三、上下文的工作流程（完整对话链路）

以多轮聊天为例：

第一轮 你：问题A 模型接收：系统提示词 + 问题A → 生成回答A 上下文存储：[系统词] + 你A + AI A
第二轮 你：追问B 模型接收：[系统词] + 你A + AI A + 追问B → 生成回答B 上下文继续累加。
超限触发截断 多轮聊天后，总 Token > 上下文窗口 → 从最开头的用户 / AI 对话开始删除，只保留后半段内容。现象：你提前面聊过的内容，AI 表示 "没有印象"。

四、上下文的分类

1. 按使用场景划分

（1）对话上下文（日常聊天 / 助手）

最常见，纯多轮对话历史，特点：动态累加、自动截断。适用：闲聊、问答、思路沟通、连续改文案 / 代码。

（2）文档 / 知识库上下文（RAG 检索增强）

不是聊天历史，而是外部导入的文件、网页、知识库 。流程：用户提问 → 从文档里检索相关片段 → 把检索内容 + 问题一起作为上下文输入模型。作用：让 AI 学习私有资料、长文档、专业手册，突破原生窗口限制。

（3）指令上下文（Prompt 工程）

固定指令、角色设定、格式约束、规则要求，放在上下文最前端。例："严格按步骤解答、代码加注释、只用中文、禁止编造信息"。

2. 按生命周期划分

临时上下文：仅当前会话有效，关闭对话 / 刷新页面就清空；
持久上下文：部分平台支持会话存档，重新打开继续沿用历史；
全局上下文：少数产品支持跨会话记忆（个性化记忆）。

五、上下文的核心限制与问题

1. 长度限制（最主要痛点）

窗口再大也有上限，长对话、长文档必然被截断。

2. 位置偏差（上下文漂移）

模型对上下文靠前的内容关注度更低，越靠后的内容，模型理解越准确。表现：久远的指令、细节容易被忽略。

3. 冗余与干扰

对话越久，无效内容越多，会：

占用 Token，加速超限；
干扰模型判断，回答跑偏、答非所问。

4. 成本问题

Token 直接对应计费：上下文越长，输入 + 输出 Token 越多，调用成本越高。

六、主流优化方案（行业通用技术）

针对上下文短板，业界有成熟解决方案：

1. 上下文压缩 / 摘要

自动把早期长对话压缩成简短摘要，替代原文，节省 Token，同时保留核心信息。

2. 滑动窗口（Sliding Window）

不粗暴截断全部历史，只保留最近 N 轮对话，像滑动窗口一样淘汰旧内容，兼顾连贯性与长度。

3. RAG 检索增强（解决超长文档）

不把整篇文档塞进上下文，而是按需检索片段，大幅降低上下文负载，也是企业知识库主流方案。

4. 长上下文模型专项优化

模型底层技术：稀疏注意力、滑动注意力、分块编码，让模型原生支持 100K+ 超长窗口。

5. 手动清空 / 重置上下文

用户侧最简单方案：新建会话，直接清空所有历史，相当于重启模型记忆。

七、日常使用实操技巧

1. 想让 AI 记住关键要求

把角色、规则、硬性要求 放在第一轮提问最前面（等效系统提示词），尽量不要中途改。

2. 对话变多、回答跑偏时

短期：发送一句 总结我们之前的对话要点，让 AI 压缩历史；
长期：新建对话，彻底重置上下文。

3. 处理长文本 / 代码

不要一次性粘贴几万字，优先拆分内容，或使用支持长文档导入 + RAG 的功能。

4. 精准引用历史内容

主动复述前文关键信息，弥补模型 "遗忘" 问题。

八、补充：易混淆概念区分

上下文 ≠ 长期记忆 上下文是单次会话的临时文本；长期记忆是平台单独存储用户偏好、历史习惯，二者独立。
上下文窗口 ≠ 单次输出上限 输出上限是 "一次最多能写多少字"，上下文窗口是整体输入 + 输出的总和上限。

总结一句话

AI 上下文就是模型当前能读取到的所有历史文本合集，由 Token 总量和上下文窗口决定记忆上限，对话会不断累加、超限自动截断；所有连贯聊天、读文档、执行复杂指令，全都依赖它。