智能体化系统(Agentic System)开发面临的挑战及应对

一、产业共识

随着全球AI大模型技术的突破和产业应用的升级，智能体系统正越来越多的出现在我们的生产生活中。尽管不同机构对于智能体的定义略有不同，但产业界在发展趋势和现状上还是形成了极大的共识，具体如下：

1、2025年成为智能体(Agent)发展元年。

2、智能体化系统(Agentic System)将成为AI系统的新一代范式。

3、构建用于演示的智能体化系统原型是容易的，然而构建生产级可靠智能体化系统绝非易事。

二、路线之争：工作流(WorkFlows) vs 智能体(Agents)

在基于大模型的AI应用设计上，存在着两种不同的模式：工作流(WorkFlows)和智能体(Agents)。

工作流是指严格按照预设的代码路径协调大语言模型（LLMs）与工具的调用，完成具有固定流程的任务的AI系统。

智能体是指大语言模型（LLMs）能动态指导自身流程与工具使用，并对任务的完成方式保持控制权的AI系统。

两者的主要区别如下表所示：


对比维度	工作流（WorkFlows）	智能体（Agents）
核心逻辑	按预设步骤流转	按目标自主决策
灵活性	低，步骤不可随意变更	高，可动态调整策略
决策能力	无，仅执行预设规则	有，可自主分析并选择方案
适用场景	标准化、重复性任务	复杂、动态、非标准化任务

工作流和智能体最本质的区别在于是否持有执行控制权。工作流没有执行控制权，智能体可以自主规划执行流程。持有控制权的好处是动态灵活，坏处是增加了系统行为的不可预测性以及性能的损耗。不持有控制权的好处是系统行为明确可预测，坏处是缺少灵活性。两者有各自不同的适用场景。

在实际应用中，工作流与智能体的结合体更为常见，更能适应业务需要。因此，讨论一个系统究竟是工作流还是智能体并没有太大的意义，反而探讨一个系统的智能体属性（agentic）有多强，更能对系统的自主性和行为可预测性做出准确刻画。基于对这一点的认识，业界大佬们更倾向于将工作流和智能体以及它们的各种形式的结合体统称为智能体化系统（Agentic System）。

三、构建生产级可靠智能体化系统的难点

智能体化系统在实际应用中有时表现不佳。大多数情况是因为大模型执行出了问题。

大模型执行为什么会出问题？主要有两方面原因：

1、模型本身性能不足；

2、传递给模型的上下文信息不恰当（错误、混乱或不完整）。

第一个问题取决于当前大模型的研发技术水平，不是短时期内可以快速解决的。即使可以通过模型微调提升应用领域内的性能，但由于成本高昂而被上下文内的学习所替代。

第二个问题属于应用开发过程中不恰当的处理带来的问题，是应用开发者必须面对和解决的问题。事实上，实际应用中，系统不稳定绝大多数是第二个问题导致的。

那么导致第二个问题的原因又有哪些呢？根据经验主要有以下原因：

系统提示词（system messages）不完整或过于简略
用户输入模糊不清
无法调用到合适的工具
工具描述不够清晰准确
未向模型传递恰当的上下文信息
工具返回的结果格式混乱

构建可靠的智能体系统（agentic systems），难点就在于要确保大模型在每一步都能获取恰当的上下文。

这里隐含了两层意思：

1、精心筛选和维护输入到大模型中的上下文，确保大模型生成恰当的任务规划；

2、精心筛选和维护输入到大模型中的上下文，确保大模型在每一步生成恰当的内容；

这正是智能体化系统开发中上下文工程（Context Engineering）所要解决的问题。

四、上下文的构成要素

按照上下文中不同信息的作用，可以将它们划分成六类要素：

1、系统提示词

Agent扮演什么角色
Agent的目标和任务
特定要求和约束

2、样本示例

Agent如何思考、如何决策的示范
理想的回答或结果应该是什么样子
Agent应避免的错误行为或输出

3、工具说明

每个工具能做什么、何时使用、如何调用
工具的输入要求和输出格式
如何理解并利用工具返回的信息

4、领域知识

外部领域知识、文档、最佳实践
任务相关的特定知识：API 文档、内部流程、规范、系统架构

5、状态记忆

当前会话中的历史对话、临时变量
跨会话的用户偏好、历史习惯、个人数据

6、合规要求

确保用户输入合法、清洁、符合安全规范
限制工具调用范围，禁止危险或不当操作
确保Agent返回的结果满足质量、安全和伦理要求

五、上下文管理的约束

1、Token限制

一般大模型上下文窗口长度都有一个最大限制，这意味着我们不能把所有信息都一股脑地塞进去，而必须挑选和整理信息，只提供最有用的内容进去。

2、算力成本

给模型输入的每一个 token 都是有成本的，尤其是在大规模部署或频繁调用时。如果上下文管理不善，成本可能会呈指数级上升。

3、上下文腐烂（Context Rot）

由于大模型的Transformer 架构，使得"上下文规模" 与 "注意力集中度" 之间存在天然的矛盾。随着上下文窗口中标记（token）数量的增加，大模型从该上下文中准确召回信息的能力会随之下降。

4、长期任务的记忆管理

长期任务中，智能体常常需要跨越多个会话来记住用户的偏好、历史交互、上下文线索等。只有这样，它才能在后续对话或任务中保持信息，提供个性化和连贯的体验。如何有效组织管理这些记忆信息直接影响到智能体的性能表现。

六、上下文管理的策略

1、上下文内容管理策略

压缩（compaction）
结构化笔记（structured note-taking）
多智能体架构（multi-agent architectures）
反思式提示词优化（GEPA）
动态备忘录（Dynamic Cheatsheet）
智能体化上下文该工程（Agentic Context Engineering）

2、上下文操作策略

惰性加载：非必要内容不预加载，仅在需要时才加载。
上下文缓存：对频繁访问的上下文进行缓存，加速检索速度。这就像浏览器缓存网页一样，下次访问时更快。
增量更新：避免重写整个上下文，只更新改动的部分。这在处理大型状态对象或记忆时尤其有效，可以节省大量计算和 I/O 资源。

七、辅助工具

1、记忆开发框架

Mem0：专注于 AI 智能体 "长期记忆管理" 的开源工具包。
Letta：实现智能体自我管理长期记忆。

2、上下文缓存

Zep AI：专为 AI Agent设计的高级内存管理系统，支持会话记忆、向量存储等。
Redis：高性能的键值存储，适用于高速缓存和短期记忆。

3、编排框架

LangGraph：基于 LangChain 提供的状态图（state graph）抽象，用于构建复杂、有状态的 LLM 应用。
AutoGen：微软开源的多Agent对话框架，支持自动化工作流和复杂的Agent协作。
CrewAI：一个用于编排多智能体团队的框架，让Agent可以协作完成复杂任务。

4、知识库

Milvus：专为海量向量相似性搜索设计，适合构建大规模的知识库。
ChromaDB：轻量级且易于使用的向量数据库，适合快速原型开发和中小型项目。
Weaviate：带有内置 ML 模型的向量搜索引擎，支持多模态数据，能进行更智能的知识检索。

5、追踪/可观测性

LangSmith：LangChain 官方提供的调试、测试和监控工具，用于跟踪 LLM 应用程序的运行。
Weights & Biases：强大的实验追踪和监控平台，可以帮助您可视化、比较和优化模型训练及Agent表现。

八、系统评估

智能体能力评估（Assessing Agent Capabilities）：对智能体的核心能力进行评估，例如其理解指令的能力与逻辑推理能力。
路径与工具使用评估（Evaluating Trajectory and Tool Use）：分析智能体为达成解决方案所采取的步骤，包括其工具选择、策略制定以及方法的效率。
最终响应评估（Evaluating the Final Response）：对智能体最终输出结果的质量、相关性与准确性进行评估。

九、总结

智能体化系统(Agentic System)将成为AI系统的新一代范式。

然而开发生产级可靠的智能体化系统并不容易。

上下文工程是解决智能体化系统性能问题的关键。

一些框架和工具可以提升开发效率和系统性能。

系统运行追踪和系统评估是达成目标的必要举措。