详细讲解 AI 上下文(Context)

目录

一、核心定义

二、两大核心概念

[1. 上下文窗口(Context Window)](#1. 上下文窗口(Context Window))

[2. 输入上下文 vs 输出上下文](#2. 输入上下文 vs 输出上下文)

三、上下文的工作流程(完整对话链路)

四、上下文的分类

[1. 按使用场景划分](#1. 按使用场景划分)

[(1)对话上下文(日常聊天 / 助手)](#(1)对话上下文(日常聊天 / 助手))

[(2)文档 / 知识库上下文(RAG 检索增强)](#(2)文档 / 知识库上下文(RAG 检索增强))

[(3)指令上下文(Prompt 工程)](#(3)指令上下文(Prompt 工程))

[2. 按生命周期划分](#2. 按生命周期划分)

五、上下文的核心限制与问题

[1. 长度限制(最主要痛点)](#1. 长度限制(最主要痛点))

[2. 位置偏差(上下文漂移)](#2. 位置偏差(上下文漂移))

[3. 冗余与干扰](#3. 冗余与干扰)

[4. 成本问题](#4. 成本问题)

六、主流优化方案(行业通用技术)

[1. 上下文压缩 / 摘要](#1. 上下文压缩 / 摘要)

[2. 滑动窗口(Sliding Window)](#2. 滑动窗口(Sliding Window))

[3. RAG 检索增强(解决超长文档)](#3. RAG 检索增强(解决超长文档))

[4. 长上下文模型专项优化](#4. 长上下文模型专项优化)

[5. 手动清空 / 重置上下文](#5. 手动清空 / 重置上下文)

七、日常使用实操技巧

[1. 想让 AI 记住关键要求](#1. 想让 AI 记住关键要求)

[2. 对话变多、回答跑偏时](#2. 对话变多、回答跑偏时)

[3. 处理长文本 / 代码](#3. 处理长文本 / 代码)

[4. 精准引用历史内容](#4. 精准引用历史内容)

八、补充:易混淆概念区分

总结一句话


一、核心定义

AI 上下文(Context Window / 对话上下文) ,简单说就是大模型能 "记住" 的当前对话 / 任务里的全部历史信息,包括:你之前发的提问、AI 的回复、指令、参考资料、格式要求等。

模型并非拥有真正记忆,它只是把历史对话文本拼接成一段长输入,连同最新问题一起送入模型推理,以此实现 "连贯对话"。


二、两大核心概念

1. 上下文窗口(Context Window)

这是最关键指标,单位一般是 Token(令牌)

  • Token :AI 理解文本的最小单位,中文约 1 个 Token ≈ 0.5~1 个汉字,英文 1 个单词≈1~2 Token。
  • 窗口大小 :代表模型一次性最多能处理的总 Token 上限(历史对话 + 新提问 + 输出内容 总和)。

举例:

  • 4K 上下文:总容量约 4096 Token,适合日常短对话;
  • 16K/32K/128K 长上下文:可容纳整篇文档、代码、万字长文、多轮长对话。

规则 :一旦对话总 Token 超过窗口上限,模型会自动截断最早的历史内容 ,前端表现就是:前面的聊天内容 AI 彻底 "忘了"

2. 输入上下文 vs 输出上下文

  1. 输入上下文 :所有历史对话、参考文档、系统提示词(System Prompt),是喂给模型的 "已知信息";
  2. 输出上下文 :模型本轮生成的回答,回答结束后会自动追加到历史上下文,成为下一轮对话的输入。

系统提示词(System Prompt) :属于常驻上下文,优先级最高。比如 "你是一名 Java 技术专家,回答简洁专业",会一直存在于上下文头部,几乎不会被截断。


三、上下文的工作流程(完整对话链路)

以多轮聊天为例:

  1. 第一轮 你:问题A 模型接收:系统提示词 + 问题A → 生成回答A 上下文存储:[系统词] + 你A + AI A

  2. 第二轮 你:追问B 模型接收:[系统词] + 你A + AI A + 追问B → 生成回答B 上下文继续累加。

  3. 超限触发截断 多轮聊天后,总 Token > 上下文窗口 → 从最开头的用户 / AI 对话开始删除,只保留后半段内容。 现象:你提前面聊过的内容,AI 表示 "没有印象"。


四、上下文的分类

1. 按使用场景划分

(1)对话上下文(日常聊天 / 助手)

最常见,纯多轮对话历史,特点:动态累加、自动截断。 适用:闲聊、问答、思路沟通、连续改文案 / 代码。

(2)文档 / 知识库上下文(RAG 检索增强)

不是聊天历史,而是外部导入的文件、网页、知识库 。 流程:用户提问 → 从文档里检索相关片段 → 把检索内容 + 问题一起作为上下文输入模型。 作用:让 AI 学习私有资料、长文档、专业手册,突破原生窗口限制。

(3)指令上下文(Prompt 工程)

固定指令、角色设定、格式约束、规则要求,放在上下文最前端。 例:"严格按步骤解答、代码加注释、只用中文、禁止编造信息"。

2. 按生命周期划分

  • 临时上下文:仅当前会话有效,关闭对话 / 刷新页面就清空;
  • 持久上下文:部分平台支持会话存档,重新打开继续沿用历史;
  • 全局上下文:少数产品支持跨会话记忆(个性化记忆)。

五、上下文的核心限制与问题

1. 长度限制(最主要痛点)

窗口再大也有上限,长对话、长文档必然被截断。

2. 位置偏差(上下文漂移)

模型对上下文靠前的内容关注度更低,越靠后的内容,模型理解越准确。 表现:久远的指令、细节容易被忽略。

3. 冗余与干扰

对话越久,无效内容越多,会:

  • 占用 Token,加速超限;
  • 干扰模型判断,回答跑偏、答非所问。

4. 成本问题

Token 直接对应计费:上下文越长,输入 + 输出 Token 越多,调用成本越高。


六、主流优化方案(行业通用技术)

针对上下文短板,业界有成熟解决方案:

1. 上下文压缩 / 摘要

自动把早期长对话压缩成简短摘要,替代原文,节省 Token,同时保留核心信息。

2. 滑动窗口(Sliding Window)

不粗暴截断全部历史,只保留最近 N 轮对话,像滑动窗口一样淘汰旧内容,兼顾连贯性与长度。

3. RAG 检索增强(解决超长文档)

不把整篇文档塞进上下文,而是按需检索片段,大幅降低上下文负载,也是企业知识库主流方案。

4. 长上下文模型专项优化

模型底层技术:稀疏注意力、滑动注意力、分块编码,让模型原生支持 100K+ 超长窗口。

5. 手动清空 / 重置上下文

用户侧最简单方案:新建会话,直接清空所有历史,相当于重启模型记忆。


七、日常使用实操技巧

1. 想让 AI 记住关键要求

角色、规则、硬性要求 放在第一轮提问最前面(等效系统提示词),尽量不要中途改。

2. 对话变多、回答跑偏时

  • 短期:发送一句 总结我们之前的对话要点,让 AI 压缩历史;
  • 长期:新建对话,彻底重置上下文。

3. 处理长文本 / 代码

不要一次性粘贴几万字,优先拆分内容,或使用支持长文档导入 + RAG 的功能。

4. 精准引用历史内容

主动复述前文关键信息,弥补模型 "遗忘" 问题。


八、补充:易混淆概念区分

  1. 上下文 ≠ 长期记忆 上下文是单次会话的临时文本;长期记忆是平台单独存储用户偏好、历史习惯,二者独立。
  2. 上下文窗口 ≠ 单次输出上限 输出上限是 "一次最多能写多少字",上下文窗口是整体输入 + 输出的总和上限

总结一句话

AI 上下文就是模型当前能读取到的所有历史文本合集,由 Token 总量和上下文窗口决定记忆上限,对话会不断累加、超限自动截断;所有连贯聊天、读文档、执行复杂指令,全都依赖它。

相关推荐
救救孩子把2 小时前
87-机器学习与大模型开发数学教程-8-5 微分方程与神经微分方程(Neural ODEs)
人工智能·机器学习
完成大叔2 小时前
模块二,Agent个性化模式的价值呈现
人工智能
Shan12052 小时前
机器学习之平均精确率均值(Average Precision)
人工智能·机器学习·均值算法
共享家95272 小时前
Skill的概述与使用
人工智能·学习·openclaw
`流年づ2 小时前
人工智能学习笔记-KNN
人工智能·笔记·学习
Master_oid2 小时前
机器学习45:线性回归进阶篇③
人工智能·机器学习·线性回归
YOLO数据集集合2 小时前
智慧工地AI视觉落地|施工现场建材目标检测开源数据集|无人机航拍建材识别、工地智能化物料盘点深度学习10266期
人工智能·目标检测·无人机
January丶2 小时前
关于多Agent和单Agent的一些思考
人工智能