读书笔记：Context Engineering 2.0 （上）

文章目录

- [1 概述](#1 概述)
- - [1.1 名词解释](#1.1 名词解释)
- [2 论文章节目录](#2 论文章节目录)
- [3. 摘要、思路和要点](#3. 摘要、思路和要点)
- - [3.1 "A person is the sum of their contexts."](#3.1 “A person is the sum of their contexts.”)
  - [3.2 2020年至今处于2.0时代](#3.2 2020年至今处于2.0时代)
  - [3.3 进入3.0时代的特征](#3.3 进入3.0时代的特征)
  - [3.4 设计、组织和管理语境信息](#3.4 设计、组织和管理语境信息)
  - - [3.4.1 语境收集和存储的两个基本设计原则](#3.4.1 语境收集和存储的两个基本设计原则)
    - [3.4.2 当前语境处理的常用方法和局限](#3.4.2 当前语境处理的常用方法和局限)
  - [3.5 多模态语境处理](#3.5 多模态语境处理)
  - [3.6 语境组织](#3.6 语境组织)
  - - [3.6.1 内存分层架构（Layered Architecture of Memory）](#3.6.1 内存分层架构（Layered Architecture of Memory）)
    - [3.6.2 短期记忆(Short-term Memory)](#3.6.2 短期记忆(Short-term Memory))
    - [3.6.3 长期记忆(Long-term Memory)](#3.6.3 长期记忆(Long-term Memory))
    - [3.6.4 内存传输（Memory Transfer）](#3.6.4 内存传输（Memory Transfer）)

1 概述

阅读论文"Context Engineering 2.0:The Context of Context Engineering"的一个初步笔记。

1.1 名词解释

Context：中文翻译多为"上下文"，或"语境"。本文中统一使用"语境" ，更贴切，且少一字。
Context Engineering：语境工程

2 论文章节目录

1 引言

2 理论框架

2.1 形式化定义

2.2 阶段特征

3 历史演进

3.1 20多年前："1.0"时代

3.1.1 技术格局

3.1.2 理论基础

3.1.3 核心实践

3.2 20年后："2.0"时代

4 语境收集与存储

4.1 "1.0"和"2.0"时代的典型策略

4.2 人类水平语境生态系统

5 语境管理

5.1 文本语境处理

5.2 多模态语境处理

5.3 语境组织

5.3.1 记忆分层架构

5.3.2 语境隔离

5.4 语境抽象

6 语境使用

6.1 系统内语境共享

6.2 跨系统语境共享

6.3 语境理解的选择

6.4 主动用户需求推断

6.5 终身语境的保留与更新

6.6 新兴工程实践

7 应用

7.1 命令行界面（CLI）

7.2 深度研究

7.3 脑机接口

8 挑战与未来方向

9 结论

3. 摘要、思路和要点

3.1 "A person is the sum of their contexts."

卡尔·马克思曾写道："人的本质是一切社会关系的总和"（Marx, 1845），这表明个体并非孤立存在，而是从根本上由其与其他实体的互动所塑造 - 在这些互动中，语境（context）起着构成性和本质性的作用。随着计算机与人工智能的出现，这些语境不再局限于纯粹的人与人之间的互动，也包括了人机互动。

为了通过有效的语境机制更好地理解人类意图，建立面向未来的塑造智能系统的基础，需要重新理解和定义语境和语境工程。

语境工程的核心思想在于：将高熵语境和意图转换为机器可以理解的低熵表示 。语境工程的演变可以概念化为四个不同阶段的进展：

1.0 -- 具有结构化、低熵输入的原始计算（Dey，2001a）；

2.0 -- 能够解释自然语言和处理歧义的智能代理（Jennings等人，1998）；

3.0 -- 达到人类水平的智能，实现细致入微的沟通和无缝协作（Morris等人，2023）；

4.0 -- 超人智能，机器可以主动构建语境，揭示人类尚未明确表达的需求。

3.2 2020年至今处于2.0时代

2020年至今，以LLM为中心的智能代理（agent）的出现（GPT-3的发布为例，Floridi和Chiriatti，2020；Brown等人，2020），标志着语境工程和以代理为核心的智能的转折点，其特征是：

用户能够通过对话表达他们的需求，系统能够理解自然语言输入，解释大部分潜在的含义并推断出一些隐含的意图
语境不再局限于明确定义的信号；它可能包含歧义和不完整的信息。
代理积极推理语境差距，使用高级语言理解和语境学习来提供更具适应性和响应性的交互（Bommasani等人，2021）

3.3 进入3.0时代的特征

随着预期的突破，智能系统有望接近人类水平的推理和理解（Goertzel和Pennachin，2021）。在这个阶段，语境工程超越了当前的模式，使代理能够像人类一样感知语境并吸收高熵信息。可解释语境的范围显著扩大，如社会线索、情绪状态和更丰富的环境动态。这些进步实现了真正自然的人机协作，人工智能充当了知识渊博、高效的同行。

3.4 设计、组织和管理语境信息

3.4.1 语境收集和存储的两个基本设计原则

最小充分性原则：系统只应收集和存储支持任务所需的信息。语境价值在于充分性，而不是数量
语义连续性原则：语境的目的是保持意义的连续性，而不仅仅是数据的连续性

3.4.2 当前语境处理的常用方法和局限

时间戳标记语境（Mark Context with Timestamp）
- 为每条信息附加一个时间戳，保持其生成顺序
- 局限：无语义结构，难以捕获长期依赖关系或有效检索信息；随着交互的积累呈线性增长，导致存储和推理中的可扩展性问题
按功能和语义属性标记语境（Tagging Context by Functional and Semantic Attributes）
- 用功能角色（如"目标"、"决策"和"行动"）等多个维度（优先级、源信息等）显式标记每个条目来组织语境信息，使每个条目更容易解释
- 局限：有点僵化，可能会限制更灵活的推理或创造性的综合
QA对（Compression with QA Pairs）
- 将语境重新表述为不同的问答组合，以提高检索效率
- 局限：打乱了最初的思路，使其不太适合需要全面理解背景的任务，如总结或推理
分层注释压缩（Compression with Hierarchical Notes）
- 信息组织成树状结构，概念分解为越来越具体的子点
- 局限：反映了信息如何分组，但并未反映想法是如何逻辑连接的，因果关系或证据和结论等关系往往没有体现；没有捕捉到当新的见解出现或现有的想法被修改时，概念随着时间推移如何演变

3.5 多模态语境处理

多模态输入映射到可比较向量空间（Mapping Multimodal Inputs into a Comparable Vector Space）：每种模态（如文本、图像和视频）首先由其自己的编码器处理，将不同模态的输入转换到共享向量空间，来自不同模态的语义相关内容被放置在一起，以便直接比较它们的含义。。由于这些向量最初存在于具有不同统计特性的单独表示空间中，因此每个向量都会通过一个学习投影层，将其映射到固定维度的共享嵌入空间中
组合不同的自我注意模式（Combining Different Modalities for Self-Attention）：在投影到共享的嵌入空间后，文本和视觉标记在每一层都相互关注，允许细粒度的跨模态对齐和推理。现代多模态LLM采用的这种方法使模型能够捕获详细的对应关系，例如哪个短语指的是图像的哪个区域，而不是依赖于独立嵌入的浅层连接
一种模态通过交叉注意力关注另一种模态（Using One Modality to Attend to Another via Cross-Attention）：这种方法使用交叉注意力层，允许一种模态（如文本）直接关注另一个模态（如图像）的特定部分。这种设置使模型能够以有针对性和灵活的方式检索跨模态的相关信息。交叉关注机制可以灵活地实现为主变压器架构之前的专用模块，也可以嵌入变压器块本身，具体取决于整体系统设计。然而，人脑可以灵活地整合感官和记忆通道的信息，而不依赖于这种固定的映射。

3.6 语境组织

3.6.1 内存分层架构（Layered Architecture of Memory）

人工智能架构，也需要采用根据时间相关性和重要性将内存分为不同的层的做法。这种分层方法允许系统保持对最近相关信息的快速访问，同时将有价值的知识保存在更稳定、长期的存储中。

3.6.2 短期记忆(Short-term Memory)

短期记忆被定义为具有高时间相关性的语境子集，由处理函数选择：
M short = f short (c ∈ C : W temporal ( c ) > θ short )

其中W temporal ( c )是语境元素c的时间相关性权重函数，θs是短期记忆的时间相关性阈值，f short是一个可能涉及人类判断、启发式过滤或系统级操作的处理函数。

3.6.3 长期记忆(Long-term Memory)

长期记忆被定义为具有高度重要性的语境：
M long = f long (c ∈ C : W importanc e ( c ) > θ long ∧ W temporal ( c ) ≤ θs )

其中W importance ( c )是语境元素c的重要性权重，θ long 是长期记忆的重要性阈值，f long是一个复合函数，可以结合选择、抽象和压缩来生成稳定的表示。

3.6.4 内存传输（Memory Transfer）

从短期记忆到长期记忆的转变被定义为：

转移：M short → M long

这个传递函数代表了巩固过程，在这个过程中，短期记忆中频繁访问或高度重要的信息被处理成长期记忆的一部分。迁移受重复频率、情感意义和与现有知识结构的相关性等因素的影响。