好文与笔记分享 A Survey of Context Engineering for Large Language Models（下）

评估

上下文工程系统的评估提出了前所未有的挑战，这些挑战超越了传统语言模型评估范式的范畴。这类系统展现出复杂的多组件架构，其动态的、上下文依赖的行为特性要求建立能够评估组件级诊断、基于任务的性能以及整体系统鲁棒性的综合评估框架。上下文工程组件的异构性------涵盖检索机制、记忆系统、推理链和多智能体协调等------需要能够同时捕捉单个组件效能和系统层面涌现行为的评估方法。

提示工程组件

涵盖通过语义相似度指标衡量提示有效性、评估响应质量，以及在不同输入变体下的鲁棒性测试。当前方法揭示了提示设计中的脆弱性和鲁棒性挑战，需要更复杂的评估框架来评估上下文校准和自适应提示优化。

自上下文化机制

通过元学习评估、适应速度测量和多轮次一致性分析进行评估。包括Self-Refine、Reflexion和N-CRITICS在内的自我优化框架展现出显著的性能提升，GPT-4通过迭代式自我优化过程实现了约20%的性能改进。多维反馈机制和基于集成的评估方法为自主演进能力提供了全面评估。

工具集成推理

需要覆盖整个交互轨迹的全面评估，包括工具选择准确性、参数提取精度、执行成功率和错误恢复能力。MCP-RADAR框架采用客观指标，为软件工程和数学推理领域提供了标准化评估。现实世界评估揭示了显著的性能差距，GPT-4在GTA基准测试中完成的任务不足50%，而人类表现达到92%。包括BFCL（2,000个测试案例）、T-Eval（553个工具使用案例）、API-Bank（73个API，314个对话）和ToolHop（995个查询，3,912个工具）在内的高级基准测试，解决了多轮交互和嵌套工具调用场景的评估需求。

而相对的，可能一些有待商榷的地方

结构化和关系数据集成评估
考察知识图谱遍历、表格理解和数据库查询生成的准确性。然而，当前评估框架在评估结构推理能力方面存在显著局限，高质量结构化训练数据的开发仍是持续面临的挑战。基于LSTM的模型在顺序信息和结构信息冲突时表现出更高的错误率，凸显了需要更复杂基准测试来检验结构理解能力的需求。

有稳定的SQL能解决问题，为什么要用LLM来解决？

检索增强生成以及记忆系统
评估通过精确度、召回率、相关性和事实准确性等综合指标，全面评估检索质量和生成效果。智能体RAG系统引入了额外的复杂性，需要评估任务分解准确性、多计划选择有效性和记忆增强规划能力。自我反思机制通过反馈循环展示出迭代改进的能力，其中MemoryBank实现方案融入了艾宾浩斯遗忘曲线原理以增强记忆评估。
评估因缺乏标准化评估框架以及当代大型语言模型固有的无状态特性而面临巨大困难。LongMemEval提供了500个精心设计的问题，用于评估信息提取、时序推理、多会话推理和知识更新等基本能力。商业AI助手在长时间交互中表现出30%的准确率下降，突显了其在记忆持久性和检索有效性方面的显著缺陷。NarrativeQA、QMSum、QuALITY和MEMENTO等专用基准测试致力于解决情景记忆评估的挑战。

既然我们不会用大模型来处理结构化查询，那么一个记忆体工具的基础上，我们要考虑外部记忆"装置"如何设计的问题。

多智能体系统
包括LangGraph、AutoGen和CAMEL在内的现代编排框架表现出事务支持不足的问题，当系统完全依赖大型语言模型的自我验证能力而缺乏独立验证程序时，验证局限性随之出现。随着智能体在维护涵盖情景和语义信息的长期上下文方面遇到困难，上下文处理失败进一步加剧了挑战。

当我们看到单智能体的验证如此复杂，而多智能体，是否需要事务性验证是一个问题。哪怕我们添加了全局事务性方式，智能体之间的交叉验证是另外一个局限性的问题。

长上下文处理
评估需要专门指标来考量长序列中的信息保留能力、位置偏差和推理连贯性。"大海捞针"评估范式测试模型从长上下文中检索特定信息的能力，而多文档推理任务则评估跨多个信息源的合成能力。位置插值技术和超长序列处理方法面临显著的计算挑战，限制了实际评估场景。

考虑到注意力机制已经发生了中间丢失问题。从工程角度出发，在中间丢失问题被解决之前，我们可能应该考虑放弃长上下文处理，转而使用其他替代方案。

未来方向和挑战

我们反过来看，现在做Agent需要做什么！

缩放定律与计算效率

大型语言模型卓越的理解能力与其明显的生成局限性之间存在的基本不对称，构成了上下文工程研究中最关键的挑战之一。这种理解-生成差距体现在多个维度，包括长文本输出的连贯性、事实一致性维护以及规划复杂性。

记忆机制

记忆增强架构需要超越当前外部内存机制，以实现更复杂的长期内存组织、分层内存结构和自适应内存管理策略。采用艾宾浩斯遗忘曲线原则的MemoryBank实现在内存持久性方面展示了有前景的方法，

推理增强

上下文工程系统需要增强的推理能力，涵盖因果推理、反事实思考、时序推理以及跨扩展上下文的类比推理。当前系统在复杂推理模式方面能力有限，这些模式需要整合多证据源、考虑替代场景并在复杂推理链中保持逻辑一致性。除了这些感知模态，上下文工程还必须处理更抽象的信息形式，如图结构------其结构语义无法被语言模型直接解释。捕捉图结构中编码的高层含义引入了独特挑战，包括将图表示与语言模型嵌入对齐以及高效表达图拓扑。图推理成为上下文工程的核心难点，要求模型能够驾驭超越原始模态的复杂关系结构。

多步规划与执行能力代表关键发展领域，使系统能够分解复杂任务、制定执行策略、监控进度并根据中间结果调整计划。

智能上下文组装与优化

能够从可用组件智能组装上下文的自动化上下文工程系统代表了一个关键的研究前沿，需要开发上下文优化算法、自适应选择策略和学习的组装函数。当前方法严重依赖启发式方法和特定领域工程，限制了跨不同应用的可扩展性和最优性。

自我优化机制

通过迭代改进过程展现出智能上下文优化的巨大潜力。Self-Refine、Reflexion和N-CRITICS框架实现了显著的性能提升，GPT-4通过迭代优化展示了约20%的性能改进。然而，这些方法需要在自主演化和跨不同上下文的元学习优化策略方面取得进展。

融合多维度反馈机制（包括正确性、相关性、清晰度和鲁棒性）为上下文优化提供了有前景的方向。自我奖励机制实现了自主演化能力，但研究必须解决关于最优适应率、稳定性-可塑性权衡以及在不同操作条件下保持有益适应的基本问题。