一篇带你读懂大模型上下文优化的最新研究------从 In-Context Learning,到 Dynamic Cheatsheet,再到最新的 Agentic Context Engineering (ACE)。
一、为什么"改上下文"成了新训练
当我们谈论"大模型微调"时,很多人想到的是更新参数、重新训练。但在今天,大多数模型其实是 靠改上下文(prompt / system / memory)来适配任务 。
这一趋势有三个背景:
- 参数封闭:基础模型通常无法直接微调;
- 多任务需求:应用场景太多,改上下文比改参数更灵活;
- 长上下文模型兴起:让上下文足以承载知识、经验和风格。
于是,"上下文工程(Context Engineering)"开始取代传统微调,成为大模型应用的核心竞争力。
二、ICL:从几条样例开始的革命
ICL (In-Context Learning),即"上下文学习",出自 GPT-3 论文
Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.
它的思想极其简单:
不更新参数,只在输入中放几个示例,模型就能模仿并泛化。
ICL 让人们第一次意识到------Prompt 本身就是一种"训练" 。
但它也存在天然的局限:
- 样例有限,难以持续累积;
- 不具备"反思与修正"的能力;
- 难以管理和版本化。
三、GEPA:让模型学会"自我复盘"
GEPA (Generative Experience Replay with Preference Alignment)
Li et al., NeurIPS 2023.
这是第一批尝试让模型"复盘自己"的方法。
GEPA的思路是:
- 模型生成任务执行样例;
- 用偏好建模(Preference Alignment)选择更优示例;
- 不断重放这些高质量样例,强化模型的自适应能力。
简单来说,GEPA 是一种"生成式自训练 + 偏好对齐",为模型提供了"自监督"与"自我优化"的循环。
四、DC:可演化的「Cheatsheet」
DC (Dynamic Cheatsheet)
Zhou et al., Dynamic Cheatsheet for Large Language Models , ICLR 2024 / arXiv:2403.08912
这篇工作带来了一个关键转变:
把模型的临时知识和推理经验,存入一个「可更新的外部记忆」------Cheatsheet。
它的机制是:
- 每次任务执行后,记录下关键提示、失败案例、修复策略;
- 后续任务再用时,动态检索并补充上下文;
- 持续演化,像笔记系统一样成长。
DC 把"上下文"变成了"知识资产",为后续的 ACE 奠定了基础。
五、ACE:让上下文像代码一样进化
ACE (Agentic Context Engineering)
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, arXiv:2510.04618 (2025年10月发布)
这篇论文提出:
"上下文不是一次性写好的提示,而是一套可以演化、重构、复用的 Playbook。"
ACE 将上下文工程系统化,核心是一个三步循环:
1️⃣ Generation --- 生成
从任务执行中提炼新的策略、规则、证据片段。
2️⃣ Reflection --- 反思
基于自然反馈(任务成功率、错误率、延迟等),评估哪些规则有效。
3️⃣ Curation --- 整理
以增量合入的方式更新上下文,避免"重写式坍塌",保留细节与来源。
这样的循环可以在 离线(系统模板优化) 或 在线(记忆演化) 两种场景中运行。
六、实验结果:ACE 全面超越前辈
论文在三个典型基准上测试了 ACE、DC、GEPA、ICL 及基础模型:
任务类型 | 基线(Base LLM) | ICL | GEPA | DC | ACE |
---|---|---|---|---|---|
Agent: AppWorld | 42.4% | 46.0% | 46.4% | 51.9% | 59.5% |
Domain Knowledge: FiNER | 70.7% | 72.3% | 73.5% | 74.2% | 78.3% |
Numerical Reasoning: Formula | 67.5% | 67.0% | 71.5% | 69.5% | 76.5% |
🧠 结论:ACE 平均比前一代方法提升 8--10%,在 AppWorld 等复杂推理任务中甚至超越生产级智能体。
七、ACE-open:社区复现脚手架
虽然官方代码尚未开源,但社区已有复现项目:
- sci-m-wang/ACE-open
- 实现了 Generator → Reflector → Curator 三角色循环;
- 支持离线/在线两种适配模式;
- 提供 Dummy LLM 与最小任务环境示例。
核心设计包括:
python
# 核心抽象
Playbook: 结构化上下文资产
Delta: 增量修改操作(新增、调整、废弃)
TaskEnvironment: 环境反馈(任务成功率、工具调用结果)
OfflineAdapter.run(samples, env, epochs=1)
这让研究者可以复现论文中的自进化过程,并替换为自定义模型或任务环境。
八、ACE 的意义:让模型自己维护"经验库"
ACE 的真正突破,不只是性能提升,而是范式的跃迁:
未来的 LLM 将能:
- 在使用中持续优化;
- 自动整理自己的知识;
- 像软件一样"版本化更新"。
九、未来展望:Context = Code
ACE 让"上下文"首次具备了工程意义:
它不再是字符串,而是可以被结构化、合并、回滚的"知识代码库"。
可以预见:
- Prompt 将被版本管理(Git for Prompts) ;
- LLM 会拥有持续演化的知识层;
- AI Agent 将具备长期自我优化能力。
当上下文可以自我反思、修正、进化------
大模型,也就真正开始了"自适应智能"的时代。
参考文献:
- Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.
- Li et al., Generative Experience Replay with Preference Alignment, NeurIPS 2023.
- Zhou et al., Dynamic Cheatsheet for Large Language Models, ICLR 2024.
- Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, arXiv:2510.04618 (2025).
- sci-m-wang/ACE-open (GitHub)