一、认知基础:LLM 是预测引擎,不是推理引擎
在学任何技术之前,先理解这个根本原理:LLM 的本质是预测下一个 token,它基于训练数据中的统计规律,预测在当前输入之后最可能出现的文字序列。
这意味着:你给它的每一个字,都在影响它的预测方向。你提供的信息越精准、越相关,它的输出就越符合你的期望。这是提示工程和上下文管理所有技术的共同出发点。
二、演进路线:三个阶段
2023年:Prompt Engineering
关注:指令怎么写、Few-shot 示例、CoT 技巧
场景:一次性任务,单轮对话
2024年:Agentic Workflow
关注:工具链设计、循环执行、自我纠错
场景:多步骤任务,工具调用
2025-2026年:Context Engineering
关注:记忆管理、动态检索、Token 优化
场景:长时程 Agent,多轮自主执行
这不是"替代"关系,而是叠加关系。2026 年的工程师需要同时掌握三个层次。
三、提示工程核心技术(2025 年仍然有效的基本功)
3.1 清晰直接(最高优先级)
黄金法则:把你的 prompt 给一个完全不了解任务的同事看,如果他看不懂,模型也会懵。
四个要点:给足上下文(任务用途、目标受众、成功标准)、明确输出格式、用编号步骤给指令、控制详略程度。
# ❌ 模糊
写一封营销邮件
# ✅ 精确
为 Q3 功能发布写一封营销邮件:
目标受众:100-500 人的中型科技公司
重点功能:数据加密、跨平台同步、实时协作
语气:专业但平易近人
CTA:免费 30 天试用
结构:主题行(50字内)→ 正文(150-200字)→ 按钮文案
3.2 Few-Shot 示例(多样本提示)
提供 2-5 个精心设计的输入/输出示例,效果远超任何冗长的文字解释。Google 白皮书明确指出:3-5 个例子胜过任何说明。用 <example> 标签包裹,覆盖边缘情况。
3.3 Chain of Thought(思维链)
让模型有空间一步步推理,显著提升复杂任务准确性。三个层级:
基础 CoT:加一句 "Think step-by-step",简单粗暴但有效。
引导 CoT:列出具体推理步骤,告诉模型先做什么再做什么。
结构化 CoT(生产环境推荐):用 XML 标签分离推理过程和最终答案,方便程序解析。
xml
在 <thinking> 标签中推理,在 <answer> 标签中给出最终答案。
<thinking>
第一步:分析投资期限(5年)和资金用途(房屋首付)
第二步:计算两个选项的预期收益
- 股票 12% 年化:$10,000 × 1.12^5 = $17,623
- 债券 6% 保证:$10,000 × 1.06^5 = $13,382
第三步:考虑风险承受能力...
</thinking>
<answer>推荐债券,原因如下...</answer>
注意:CoT 会增加输出长度,影响延迟。简单查询不需要 CoT。
3.4 XML 标签结构化
当 prompt 包含多个组件时,XML 标签能防止模型混淆不同部分。Claude 对此有专门训练,效果尤为突出。
常用标签模式:<instructions> 任务步骤、<data> 输入数据、<examples> 示例集合、<thinking>/<answer> 推理分离、<document> 多文档场景、<findings>/<recommendations> 结构化输出。
3.5 角色扮演(Role Prompting)
通过 system prompt 赋予模型特定角色,把通用助手变成领域专家。
python
response = client.messages.create(
model="claude-opus-4-6",
system="You are the General Counsel of a Fortune 500 tech company.",
messages=[{"role": "user", "content": "分析这份合同的法律风险..."}]
)
无角色:「该协议看起来比较标准」。有角色(总法律顾问):发现赔偿条款可能让你为供应商过失负责、$500 责任上限严重不足、联合 IP 所有权可能让供应商出售你的专有算法。
3.6 Prompt 链(Prompt Chaining)
把复杂任务拆成多个聚焦的子任务,每步的输出作为下一步的输入。独立子任务可以并行执行,只有当输出依赖前一步时才需要串行。
自我纠错链是最实用的模式:生成 → 审查(A-F 评分)→ 改进。审查步骤能稳定发现人工编辑才能发现的问题。
3.7 Self-Consistency(自我一致性)
让模型对同一问题生成多个不同答案,通过多数投票选出最一致的那个。减少随机性,提升推理可靠性,适合高精度要求的场景。
3.8 Meta Prompting(元提示)
让模型先为自己生成最优 prompt,再执行任务。2025 年还是"高级技巧",2026 年已经是很多 Agent 框架的标准组件。
先为自己创建一个最优的 prompt,用于解释气候变化的成因和影响,
然后按照这个 prompt 执行任务。
3.9 Extended Thinking(扩展思考)
推理模型(Claude 3.7 Sonnet、o3、DeepSeek-R1)内置了大量内部推理能力。使用原则:给高层目标而非详细步骤,从最小 thinking budget(1024 tokens)开始按需增加,适合高度约束的优化问题、STEM 难题、战略分析。
四、上下文管理:2025-2026 年的核心战场
4.1 为什么上下文管理比 Prompt 更重要
Context Rot(上下文腐烂):随着 token 数量增加,模型对早期信息的准确召回能力会下降。这是 Transformer 架构的根本性限制------n² 的注意力机制意味着上下文越长,每个 token 分到的"注意力预算"越少。
即使上下文窗口已经扩展到 200K 甚至 2M tokens,这个问题依然存在。所以上下文必须被当作有限资源来精心管理,而不是无限塞入。
Gartner 2025 年报告的判断:AI 开发的重心已从"编写更好的提示词"转移到"工程化更好的上下文"。
4.2 上下文的七大组成要素
一个完整的 Agent 上下文包含:系统指令(定义角色和行为边界)、用户输入(当前任务)、历史对话(工作记忆)、长期记忆(数据库存储的项目知识和用户偏好)、外部检索信息(RAG 结果)、可用工具定义(工具集)、输出结构要求(格式约束)。
管理好这七个要素的质量和比例,就是上下文工程的核心工作。
4.3 四大核心策略
① 选择(Selection):不是所有背景信息都有用。根据当前任务意图,从海量数据中挑选最相关的部分。不仅搜索文件名,还要包含引用链上的相关类;注入项目技术栈、版本号等元数据。
② 检索(Retrieval):超越基础向量搜索(RAG)。混合检索(关键词 + 语义向量)+ 重排序(先检索 100 条,再用轻量级模型选出最相关的 5 条)。2026 年的主流是"即时检索"(Just-in-Time):Agent 维护轻量级索引(文件路径、查询语句、链接),在运行时按需加载,而不是预先把所有数据塞进上下文。
③ 压缩(Compression):即使有超长上下文窗口,压缩依然必要。语义总结(将冗长对话历史压缩为核心要点)、关键信息提取(去除 HTML 标签、冗余日志,只保留业务逻辑)、Prompt Caching(缓存已处理的上下文,大幅降低延迟和成本)。
④ 持久化(Persistence):通过 CLAUDE.md 或类似机制,将项目的核心决策、编码规约、架构约定显式化存储。无论对话进行多少轮,Agent 始终知道"我们的规则是什么"。Git 提供跨会话的优秀状态追踪。
4.4 System Prompt 的"正确高度"
System Prompt 要找到 Goldilocks Zone(恰到好处的区间):
一端是过于具体 ------硬编码复杂的 if-else 逻辑,创造脆弱性,维护成本极高。另一端是过于模糊------高层指引缺乏具体信号,模型无法准确判断期望行为。
正确的高度是:足够具体以有效引导行为,足够灵活以提供强启发式规则 。推荐用 XML 标签或 Markdown 标题组织 System Prompt 的不同部分(<background_information>、<instructions>、## Tool guidance、## Output description)。
4.5 工具集设计原则
工具集要精简,功能不重叠。判断标准很简单:如果人类工程师都说不清该用哪个工具,AI 也不会做得更好。
工具描述要极度清晰,输入参数要描述性强、无歧义。最常见的失败模式是工具集过于臃肿,覆盖功能太多,导致 Agent 在模糊的决策点上反复犹豫。
4.6 长上下文的三个实用技巧
把长文档放在 prompt 最前面,查询和指令放最后------测试表明这能提升响应质量最多 30%。
多文档场景用 <document index="1"> 标签组织,让模型知道每段内容来自哪个来源。
让模型先引用相关段落再作答,强迫它"找证据再推理",大幅减少幻觉。
五、2026 年的新增内容
5.1 MCP 成为基础设施
Anthropic 推出的 Model Context Protocol 在 2026 年已经广泛普及,标准化了 Agent 与外部工具/数据源的连接方式。现在"提示工程"的一部分工作变成了设计 MCP 工具的接口描述------工具描述写得好不好,直接决定 Agent 会不会正确调用它。
5.2 LLM-as-a-Judge
用另一个 LLM 来评估当前 LLM 的输出质量,替代人工评估。74% 的企业正在向集中式 Prompt 库迁移,配合自动化评估流水线,让 Prompt 优化从"手工艺"变成"工程流程"。
5.3 多 Agent 协作的上下文边界
单 Agent 的 prompt 设计已经成熟,2026 年的新挑战是:多个 Agent 之间如何传递上下文?Orchestrator(编排者)和 Subagent(执行者)的信息边界怎么划?每个 Agent 只应该看到它完成任务所需的最小信息集。
5.4 推理模型改变了 CoT 的使用方式
o3、DeepSeek-R1、Claude 3.7 Sonnet 等推理模型内置了 CoT,用户不再需要手动写"think step by step"。反而需要学会给推理模型提供高层目标而非详细步骤------过于详细的步骤反而会限制模型的推理路径,降低效果。
六、Prompt vs. Context Engineering 对比
| 维度 | Prompt Engineering | Context Engineering |
|---|---|---|
| 关注点 | 指令格式、语气、示例模板 | 背景数据、检索精度、信息密度 |
| 主要挑战 | 模型对指令的敏感度 | Token 窗口限制、检索噪音、延迟 |
| 解决手段 | 精细化文本写作 | 向量数据库、重排序、图谱检索 |
| 适用场景 | 单次任务、固定格式输出 | 多轮 Agent、长时程自主执行 |
| 代表技术 | CoT、Few-Shot、XML 标签 | RAG、Memory 管理、Prompt Caching |
| 重要性趋势 | 随模型能力提升而降低 | 随 Agent 复杂度提升而增加 |
七、技术选择速查
任务类型?
│
├── 单次任务,格式固定
│ └── 清晰直接 + Few-Shot + XML 标签
│
├── 需要复杂推理
│ ├── 普通模型 → 结构化 CoT(<thinking> 标签)
│ └── 推理模型(o3/R1/Claude 3.7)→ 给高层目标,让模型自己推理
│
├── 多步骤复杂任务
│ └── Prompt 链(含自我纠错)
│
├── 需要外部知识
│ └── RAG + 混合检索 + 重排序
│ 长文档放最前,查询放最后
│
└── 构建 AI Agent(多轮、自主)
└── Context Engineering
├── System Prompt 找正确高度
├── 工具集精简,功能不重叠
├── 即时检索(Just-in-Time)
├── 记忆分层(工作/长期/环境)
└── 压缩 + 持久化(CLAUDE.md)
八、一句话总结
2025 年:提示工程的基本功(CoT、Few-Shot、XML、角色、链式)依然有效,但真正的竞争力开始转向上下文管理------理解 LLM 的注意力预算限制,在 Agent 场景下精心设计信息的流动方式。
2026 年 :Prompt 本身越来越"廉价"(模型理解自然语言的能力趋于完美),高质量的上下文管理能力越来越"昂贵"。谁能为 AI 提供最干净、最相关、最有逻辑的上下文,谁就赢得了竞争优势。核心公式变成了:好的 Agent = 好的上下文设计 + 精简的工具集 + 合理的记忆架构。