从 ICL 到 ACE：让上下文自己进化的「大模型自适应」

一篇带你读懂大模型上下文优化的最新研究------从 In-Context Learning，到 Dynamic Cheatsheet，再到最新的 Agentic Context Engineering (ACE)。

一、为什么"改上下文"成了新训练

当我们谈论"大模型微调"时，很多人想到的是更新参数、重新训练。但在今天，大多数模型其实是 靠改上下文（prompt / system / memory）来适配任务 。

这一趋势有三个背景：

参数封闭：基础模型通常无法直接微调；
多任务需求：应用场景太多，改上下文比改参数更灵活；
长上下文模型兴起：让上下文足以承载知识、经验和风格。

于是，"上下文工程（Context Engineering）"开始取代传统微调，成为大模型应用的核心竞争力。

二、ICL：从几条样例开始的革命

ICL (In-Context Learning)，即"上下文学习"，出自 GPT-3 论文

Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.

它的思想极其简单：

不更新参数，只在输入中放几个示例，模型就能模仿并泛化。

ICL 让人们第一次意识到------Prompt 本身就是一种"训练" 。

但它也存在天然的局限：

样例有限，难以持续累积；
不具备"反思与修正"的能力；
难以管理和版本化。

三、GEPA：让模型学会"自我复盘"

GEPA (Generative Experience Replay with Preference Alignment)

Li et al., NeurIPS 2023.

这是第一批尝试让模型"复盘自己"的方法。

GEPA的思路是：

模型生成任务执行样例；
用偏好建模（Preference Alignment）选择更优示例；
不断重放这些高质量样例，强化模型的自适应能力。

简单来说，GEPA 是一种"生成式自训练 + 偏好对齐"，为模型提供了"自监督"与"自我优化"的循环。

四、DC：可演化的「Cheatsheet」

DC (Dynamic Cheatsheet)

Zhou et al., Dynamic Cheatsheet for Large Language Models , ICLR 2024 / arXiv:2403.08912

这篇工作带来了一个关键转变：

把模型的临时知识和推理经验，存入一个「可更新的外部记忆」------Cheatsheet。

它的机制是：

每次任务执行后，记录下关键提示、失败案例、修复策略；
后续任务再用时，动态检索并补充上下文；
持续演化，像笔记系统一样成长。

DC 把"上下文"变成了"知识资产"，为后续的 ACE 奠定了基础。

五、ACE：让上下文像代码一样进化

ACE (Agentic Context Engineering)

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, arXiv:2510.04618 (2025年10月发布)

这篇论文提出：

"上下文不是一次性写好的提示，而是一套可以演化、重构、复用的 Playbook。"

ACE 将上下文工程系统化，核心是一个三步循环：

1️⃣ Generation --- 生成

从任务执行中提炼新的策略、规则、证据片段。

2️⃣ Reflection --- 反思

基于自然反馈（任务成功率、错误率、延迟等），评估哪些规则有效。

3️⃣ Curation --- 整理

以增量合入的方式更新上下文，避免"重写式坍塌"，保留细节与来源。

这样的循环可以在 离线（系统模板优化） 或 在线（记忆演化） 两种场景中运行。

六、实验结果：ACE 全面超越前辈

论文在三个典型基准上测试了 ACE、DC、GEPA、ICL 及基础模型：

任务类型	基线（Base LLM）	ICL	GEPA	DC	ACE
Agent: AppWorld	42.4%	46.0%	46.4%	51.9%	59.5%
Domain Knowledge: FiNER	70.7%	72.3%	73.5%	74.2%	78.3%
Numerical Reasoning: Formula	67.5%	67.0%	71.5%	69.5%	76.5%

🧠 结论：ACE 平均比前一代方法提升 8--10%，在 AppWorld 等复杂推理任务中甚至超越生产级智能体。

七、ACE-open：社区复现脚手架

虽然官方代码尚未开源，但社区已有复现项目：

sci-m-wang/ACE-open
- 实现了 Generator → Reflector → Curator 三角色循环；
- 支持离线/在线两种适配模式；
- 提供 Dummy LLM 与最小任务环境示例。

核心设计包括：

python 复制代码

# 核心抽象
Playbook: 结构化上下文资产
Delta:    增量修改操作（新增、调整、废弃）
TaskEnvironment: 环境反馈（任务成功率、工具调用结果）
OfflineAdapter.run(samples, env, epochs=1)

这让研究者可以复现论文中的自进化过程，并替换为自定义模型或任务环境。

八、ACE 的意义：让模型自己维护"经验库"

ACE 的真正突破，不只是性能提升，而是范式的跃迁：

未来的 LLM 将能：

在使用中持续优化；
自动整理自己的知识；
像软件一样"版本化更新"。

九、未来展望：Context = Code

ACE 让"上下文"首次具备了工程意义：

它不再是字符串，而是可以被结构化、合并、回滚的"知识代码库"。

可以预见：

Prompt 将被版本管理（Git for Prompts） ；
LLM 会拥有持续演化的知识层；
AI Agent 将具备长期自我优化能力。

当上下文可以自我反思、修正、进化------

大模型，也就真正开始了"自适应智能"的时代。

参考文献：

Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.
Li et al., Generative Experience Replay with Preference Alignment, NeurIPS 2023.
Zhou et al., Dynamic Cheatsheet for Large Language Models, ICLR 2024.
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, arXiv:2510.04618 (2025).
sci-m-wang/ACE-open (GitHub)