主流 AI-Agent 框架与核心模块技术报告

版本：2026-06-30

主题：主流 AI-Agent 框架、核心模块、架构差异与选型建议

输出内容：Markdown 技术报告 + 各框架对应架构图 PNG

摘要

AI-Agent 框架的核心价值不是"让大模型变聪明"，而是把大模型放进一个可执行、可恢复、可观测、可治理的工程系统中。大多数 Agent 框架围绕以下问题展开：

如何把自然语言任务转化为多步执行流程；
如何让模型安全、稳定地调用外部工具；
如何保存和恢复 Agent 的状态、记忆和中间结果；
如何组织多个智能体协作；
如何对运行过程进行调试、监控、评估和部署。

当前主流框架大致分为五类：

类型	代表框架	核心特点
图/工作流编排型	LangGraph、Microsoft Agent Framework、Google ADK、Haystack	显式控制流、状态管理、分支循环、长流程恢复
多 Agent 协作型	AutoGen、CrewAI、Microsoft Agent Framework	角色分工、群聊、handoff、任务委派
数据/RAG 增强型	LlamaIndex、Haystack、Dify	文档接入、索引检索、知识库、引用生成
轻量代码执行型	OpenAI Agents SDK、smolagents	少量抽象、工具调用、代码动作、快速原型
平台/生产治理型	Dify、Agno、Microsoft Agent Framework	可视化搭建、部署、权限、观测、运行管理

1. AI-Agent 框架的通用核心模块

无论具体框架命名如何不同，一个完整 AI-Agent 系统一般包含以下核心模块。

模块	作用	常见实现
模型接入层	连接 LLM/VLM/Embedding/Reranker	OpenAI、Azure OpenAI、Gemini、Claude、本地模型、LiteLLM
Agent 定义层	定义智能体角色、目标、指令、可用工具	Agent、AssistantAgent、Crew Agent、FunctionAgent
工具调用层	将外部能力暴露给模型使用	Function Call、Tool、Plugin、API、MCP、OpenAPI
编排层	控制任务执行顺序、分支、循环、并行、委派	Graph、Workflow、Flow、Pipeline、Runner、Runtime
状态与记忆层	保存会话、变量、工具结果、长期偏好和历史经验	State、Session、Memory、Checkpoint、Vector Store、DB
知识增强层	连接外部文档和知识库，支持 RAG	Data Connector、Index、Retriever、Document Store、Knowledge Base
多 Agent 通信层	多角色协作、handoff、群聊、manager 分配任务	Group Chat、Swarm、Crew、Team、Sub-agent
安全治理层	权限控制、输入输出校验、人工审批、防注入	Guardrails、Human-in-the-loop、RBAC、Policy、Filters
观测评估层	记录运行轨迹、调试、回放、指标评估	Tracing、Logging、LangSmith、Telemetry、Eval、Dashboard
部署运行层	API 化、服务化、扩缩容、任务调度	Cloud Run、Azure/Foundry、Docker、FastAPI、Serverless

图 1：通用 AI-Agent 框架图

2. 主流框架概览

2.1 LangGraph / LangChain

LangGraph 是 LangChain 生态中的低层 Agent 编排框架，官方将其定位为用于构建、管理和部署长时间运行、具备状态的 Agent 的低层编排框架。它的核心抽象是 StateGraph，通过状态、节点、边和检查点来表达 Agent 的执行过程。LangGraph 适合需要强控制流、可恢复执行、人类审批和复杂状态管理的生产系统。

核心模块：

State：保存消息、变量、工具结果和业务状态；
Nodes：模型调用、工具执行、业务函数等执行单元；
Edges：节点之间的固定或条件跳转关系；
Checkpointer：持久化状态，支持失败恢复和线程级记忆；
Memory：短期工作记忆与长期持久记忆；
Human-in-the-loop：运行中断、审批、状态检查与修改；
LangSmith：调试、追踪、评估与运行监控。

图 2：LangGraph / LangChain 框架图

适用场景：复杂业务流程、长任务、需要回放/调试/审批的企业级 Agent。

2.2 OpenAI Agents SDK

OpenAI Agents SDK 以少量核心抽象构建 Agent 应用：Agent、Tools、Handoffs、Guardrails 与 Tracing。官方文档将 Agent 描述为带有 instructions 和 tools 的 LLM；handoffs 支持把任务委派给其他 Agent；guardrails 用于校验输入输出；内置 tracing 能记录模型生成、工具调用、handoff 和自定义事件。

核心模块：

Agent：模型、指令和工具的组合；
Runner / Agent loop：负责工具调用、结果回填和循环执行；
Tools：函数工具、托管工具和外部能力；
Handoffs / Agents as tools：任务委派和专家 Agent 协作；
Guardrails：输入输出校验与安全约束；
Tracing：开发与生产环境的运行轨迹记录。

图 3：OpenAI Agents SDK 框架图

适用场景：OpenAI 生态内快速构建工具调用、多 Agent 委派和可观测 Agent 应用。

2.3 Microsoft Agent Framework

Microsoft Agent Framework 是 Microsoft 推出的新一代 Agent 框架。官方文档将其描述为 Semantic Kernel 与 AutoGen 的下一代整合框架，融合 AutoGen 的单 Agent/多 Agent 抽象与 Semantic Kernel 的企业级能力，如会话状态、类型安全、过滤器、遥测、模型与 embedding 支持。它还提供多种内置编排模式，包括 sequential、concurrent、handoff、group chat 和 magentic。

核心模块：

Agents：单智能体、专家智能体、多智能体；
Workflows：类型安全的工作流控制；
Orchestrations：顺序、并发、handoff、群聊、Magentic 管理模式；
State / Sessions：长流程状态管理和恢复；
Tools / Plugins：OpenAPI、MCP、A2A、业务函数；
Telemetry：追踪、日志、指标和审计；
Human-in-the-loop：人工审批和状态干预；
Deployment：本地、Azure、Foundry 等企业部署方式。

图 4：Microsoft Agent Framework 框架图

适用场景：微软生态、企业级多 Agent 编排、.NET/Python 双栈、生产部署与合规治理。

2.4 AutoGen

AutoGen 是 Microsoft Research 推出的多 Agent 编程框架，核心思想是通过多个可对话 Agent 协作解决任务。AutoGen AgentChat 提供多种预设 Agent；AssistantAgent 使用语言模型并能够调用工具；Core API 支持事件驱动、pub-sub、group chat 和 handoff 等模式。需要注意的是，Microsoft 目前已将新功能重点转向 Microsoft Agent Framework，新项目建议优先评估 Agent Framework。

核心模块：

Agents：AssistantAgent、自定义 Agent、人类 Agent；
Messages / Events：Agent 之间交换的消息与事件；
Runtime：单线程或分布式运行时；
Tools：FunctionTool、外部函数、工具结果；
Group Chat：多个 Agent 共享话题，Manager 选择下一位发言者；
Handoffs：通过特殊工具调用把任务委派给其他 Agent；
Termination：停止条件、回合限制、人工中止；
Memory / RAG / Tracing：用于复杂任务的状态和观测扩展。

图 5：AutoGen 框架图

适用场景：学习多 Agent 设计模式、研究型原型、群聊式协作与 handoff 场景。

2.5 Semantic Kernel

Semantic Kernel 是 Microsoft 的模型无关 SDK，用于把大模型与企业代码、插件函数、数据和业务流程连接起来。它的核心是 Kernel，负责协调模型连接器、插件函数、记忆、规划器与 Agent。随着 Microsoft Agent Framework 推进，Semantic Kernel 的许多能力正在向统一 Agent Framework 迁移。

核心模块：

Kernel：连接模型、插件、上下文与业务代码；
Plugins / Functions：将企业函数暴露给 AI 调用；
Connectors：连接 OpenAI、Azure OpenAI、Hugging Face 等模型；
Planner / Function Calling：选择和组合函数完成多步任务；
Memory：语义检索、向量存储和 embedding；
Filters / Middleware：权限、安全和调用前后处理；
Telemetry：日志、追踪和企业级监控。

图 6：Semantic Kernel 框架图

适用场景：已有大量企业函数和 .NET/Python/Java 应用，希望把业务能力插件化给 Agent 使用。

2.6 CrewAI

CrewAI 以"角色 + 任务 + 团队 + 流程"为核心，适合把任务拆成多个专业 Agent 协同完成。官方文档强调其支持 agents、crews、flows，并内置 guardrails、memory、knowledge 和 observability。

核心模块：

Agents：角色、目标、背景、可用工具；
Tasks：任务描述、期望输出、上下文依赖；
Crews：多个 Agent 组成的协作团队；
Flows：事件驱动流程、条件分支、业务自动化；
Process：顺序、层级等执行策略；
Tools：搜索、文件、API、自定义工具；
Knowledge / Memory：知识源、RAG、短期/长期记忆；
Guardrails / Observability：输出约束、日志和监控。

图 7：CrewAI 框架图

适用场景：研究员-写手-审校员、销售-客服-分析师等角色分工明确的多 Agent 自动化。

2.7 LlamaIndex Agent / Workflow

LlamaIndex 最初以数据连接、索引和 RAG 能力见长，现在也提供 Agent 和 Workflow 能力。官方文档说明，开发者可以使用预构建 agent/tool 快速搭建，也可以用 Workflows 构建自定义 agentic workflow；Workflow 是事件驱动编排基础，常见核心包括 steps、events 和 context。

核心模块：

Data Connectors：接入文件、数据库、网页和 SaaS 数据；
Indexes：向量、关键词、树、图等索引；
Retrievers / Query Engines：检索、重排、问答和引用；
Tools：FunctionTool、QueryEngineTool、外部 API；
Agents：FunctionAgent、ReAct、工具调用 Agent；
Workflows：Steps、Events、Context 的事件驱动编排；
Memory：会话历史和记忆组件；
LlamaParse：复杂 PDF、OCR、表格和图表解析。

图 8：LlamaIndex Agent / Workflow 框架图

适用场景：企业知识库、文档问答、研究报告、复杂文档解析和知识密集型 Agent。

2.8 Google Agent Development Kit（ADK）

Google ADK 是 Google/Gemini 生态中的开源 Agent 开发框架。官方文档将其定位为可构建、调试和部署企业级可靠 Agent 的框架，可从 agents 和 tools 起步，并扩展到多 Agent、图工作流、评估和部署。Google 的长流程 Agent 示例强调持久会话、显式状态机、event-driven resumption 和 multi-agent delegation。

核心模块：

Agents / Sub-agents：根 Agent 与专业子 Agent；
Tools：函数工具、Google 服务和外部 API；
Sessions / State：持久会话、状态变量、检查点；
Callbacks / Events：webhook、外部事件和恢复机制；
Multi-agent：专业子 Agent 委派；
Workflow / Graph：状态机、暂停恢复、长流程；
Evaluation：golden eval、模拟延迟、回归测试；
Deployment：CLI、本地、Cloud Run、Gemini Enterprise 等。

图 9：Google ADK 框架图

适用场景：Google Cloud/Gemini 生态、事件驱动企业流程、需要长时间暂停与恢复的 Agent。

2.9 Haystack

Haystack 是 deepset 的开源 AI 编排框架，核心基础是 components、pipelines、document stores、agents、tools 和 integrations。Haystack 的 Agent 组件是 loop-based 系统，会用 chat LLM 与外部工具迭代解决复杂问题；它支持动态工具选择、runtime state schema、streaming 和 exit conditions。

核心模块：

Components：Retriever、Ranker、Generator、PromptBuilder；
Pipelines：显式组合组件，支持复杂数据流；
Document Stores：文档索引、向量库、BM25；
Agent Component：LLM + tools 迭代循环；
Tools / Toolsets：Tool、PipelineTool、MCPTool、SearchableToolset；
State Schema：运行时状态读写和验证；
Prompt Builders：Jinja2 模板与变量控制；
Monitoring / Eval：追踪、日志、评估和生产观测。

图 10：Haystack Agent / Pipeline 框架图

适用场景：RAG 工程、检索问答、生产级搜索系统和透明可控的组件化流程。

2.10 Hugging Face smolagents

smolagents 是 Hugging Face 的轻量 Agent 库，目标是用少量抽象快速构建可运行 Agent。其重要特点是 CodeAgent：默认让 Agent 生成 Python 工具调用作为动作表达，这种方式比纯 JSON action 更适合表达变量复用和复杂操作，但也更依赖安全执行环境。

核心模块：

CodeAgent / ToolCallingAgent：代码动作型或工具调用型 Agent；
Model：HF Inference、本地模型、OpenAI/LiteLLM 等；
Tools：Python 函数、搜索工具、自定义工具；
Executor / Sandbox：执行模型生成的 Python 动作；
Managed Agents：子 Agent 封装；
Memory / Logs：步骤历史、观察结果和运行记录；
Safety：工具白名单、导入限制和执行权限。

图 11：Hugging Face smolagents 框架图

适用场景：教学、原型、轻量工具调用、代码动作型 Agent。

2.11 Dify

Dify 是面向团队的 Agentic Workflow 与 LLM 应用平台，提供低代码可视化工作流、RAG 知识库、工具接入、模型管理、应用发布和运营监控。Dify 的 Agent Node 可以作为 workflow 中的"自主推理"节点，根据策略选择工具和行动。

核心模块：

App / Workflow Canvas：可视化搭建 Chatbot、Agent、Workflow；
Agent Node：自主推理、工具选择、Agent Strategy；
Model Providers：多模型接入；
Knowledge Base：文档导入、切分、embedding、检索；
Tools / API：内置工具、自定义工具、HTTP 请求；
Variables / Control Flow：变量、条件分支、循环、节点编排；
Memory：会话历史和上下文窗口；
Deployment / Monitoring：API 发布、Web App、日志、标注和运营指标。

图 12：Dify Agentic Workflow 框架图

适用场景：低代码业务落地、非工程人员参与搭建、快速发布 RAG/Agent 应用。

2.12 Agno

Agno 更偏向 Agent 平台运行层，强调把 Agent 作为可管理的生产服务运行，提供 sessions、memory、knowledge、traces、scheduling、RBAC、API 和控制台。它可以和不同 Agent 框架结合，帮助团队管理运行、权限和可观测性。

核心模块：

Agents：单 Agent、多 Agent 或接入其他框架；
Runtime / AgentOS：运行、部署和管理 Agent 服务；
Tools / Toolkits：内置工具包与自定义业务工具；
Sessions：会话隔离、状态和运行历史；
Memory / Knowledge：长期记忆、知识库、检索；
Traces：结构化运行追踪；
Scheduling：后台任务和周期任务；
RBAC / Human Review：权限、人审和数据控制；
API / UI：OpenAPI、SSE、控制台管理。

图 13：Agno 框架图

适用场景：已有 Agent 需要生产化托管、统一 API、权限控制、追踪和调度。

3. 核心模块对比表

框架	主要定位	编排方式	多 Agent	记忆/状态	RAG/知识	工具调用	观测评估	典型优势
LangGraph	状态图编排	Graph / StateGraph	强	强	可集成	强	LangSmith 强	可恢复、可调试、适合复杂控制流
OpenAI Agents SDK	轻量 Agent SDK	Runner / Agent loop	Handoff	应用侧管理	可集成	强	内置 tracing	抽象少，上手快，OpenAI 生态顺滑
Microsoft Agent Framework	企业级多 Agent 与工作流	Workflow / Orchestration	很强	强	强	强	强	统一 SK/AutoGen，适合 Azure/.NET/Python
AutoGen	多 Agent 会话协作	Runtime / Group Chat	很强	中-强	可集成	强	中-强	多 Agent 研究与群聊协作成熟
Semantic Kernel	模型与企业函数编排	Kernel / Planner	中-强	中-强	中-强	很强	强	插件化企业代码，适合 .NET/Azure
CrewAI	角色任务型多 Agent	Crew / Flow	很强	中-强	强	强	中-强	角色、任务、团队建模自然
LlamaIndex	数据/RAG + Agent	Workflow / Event	中-强	中	很强	强	中-强	文档、索引、检索和知识 Agent 强
Google ADK	Google 生态 Agent 开发部署	Sessions / Workflow / Graph	强	强	可集成	强	强	长流程、持久会话、Gemini/Google Cloud 生态
Haystack	RAG Pipeline + Agent	Pipeline / Agent loop	中	中	很强	强	中	组件透明、检索工程能力强
smolagents	轻量代码动作 Agent	Code action loop	中	基础	可集成	强	基础	极简、代码动作表达力强
Dify	低代码 Agentic Workflow 平台	可视化工作流	中	中	强	强	强	低代码、知识库、部署快
Agno	Agent 生产运行平台	Runtime / AgentOS	强	强	强	强	强	会话、记忆、权限、追踪、调度生产化

4. 选型建议

4.1 按任务复杂度选型

场景	推荐框架
快速做一个带工具调用的 Agent	OpenAI Agents SDK、smolagents
复杂状态机、审批、恢复、长流程	LangGraph、Microsoft Agent Framework、Google ADK
多角色协作、研究员/写手/审校员分工	CrewAI、AutoGen、Microsoft Agent Framework
企业知识库、PDF/文档问答、RAG 报告	LlamaIndex、Haystack、Dify
微软生态、.NET、Azure、企业合规	Microsoft Agent Framework、Semantic Kernel
Google Cloud / Gemini 生态	Google ADK
非工程团队低代码搭建应用	Dify
已有 Agent 需要生产治理层	Agno、Microsoft Agent Framework、Dify

4.2 按工程成熟度选型

原型阶段：优先 OpenAI Agents SDK、smolagents、CrewAI、Dify；
可控流程阶段：优先 LangGraph、Haystack、LlamaIndex Workflows；
多 Agent 协作阶段：优先 CrewAI、AutoGen、Microsoft Agent Framework；
生产部署阶段：优先 Microsoft Agent Framework、LangGraph + LangSmith、Google ADK、Agno、Dify；
知识密集应用阶段：优先 LlamaIndex、Haystack、Dify。

4.3 按核心技术路线选型

技术路线	说明	推荐
Graph-based Agent	将控制流显式化，适合复杂流程	LangGraph、Microsoft Agent Framework、Google ADK
Conversation-based Multi-agent	让多个 Agent 像团队会议一样协作	AutoGen、CrewAI、Microsoft Agent Framework
RAG-first Agent	以知识库和文档检索为中心	LlamaIndex、Haystack、Dify
Code Agent	让模型用代码表达动作	smolagents、OpenAI Agents SDK + Code Interpreter 类工具
Low-code Agent	可视化节点编排和部署	Dify
Production Agent Platform	会话、权限、追踪、运行治理	Agno、Microsoft Agent Framework、Dify

5. 主流框架的共同趋势

5.1 从"单轮工具调用"走向"长流程状态机"

早期 Agent 多是：用户输入 → 模型思考 → 调工具 → 回答。现在生产 Agent 更强调显式状态、检查点、恢复、人工审批和事件驱动唤醒。

5.2 从"聊天式 Agent"走向"Workflow + Agent 混合"

完全让模型自由行动容易失控，因此越来越多框架采用混合模式：固定流程由 workflow 控制，不确定决策交给 Agent。

5.3 从"单 Agent"走向"多 Agent 分工"

复杂任务很难由一个大提示词完成，常见做法是将研究、计划、执行、审查、客服、审批等角色拆成多个 Agent。

5.4 从"只看最终答案"走向"全链路观测评估"

Agent 的错误常发生在中间步骤，例如工具选错、状态丢失、检索错误、审批绕过。因此 tracing、replay、evaluation 和 telemetry 正在成为标配。

5.5 从"框架能力"走向"协议互通"

MCP、A2A、OpenAPI 等协议让 Agent 能更标准化地连接工具、其他 Agent 和企业系统。

6. 结论

主流 AI-Agent 框架虽然命名和抽象不同，但本质上都在解决同一组工程问题：

text 复制代码

LLM 本身只负责语言理解和决策生成；
Agent 框架负责把这种决策变成可执行、可恢复、可观测、可治理的系统。

如果只做简单工具调用，轻量 SDK 足够；如果要做生产级 Agent，必须关注状态管理、记忆、编排、权限、评估和部署。对于研究学习，可以从 OpenAI Agents SDK、CrewAI、AutoGen、smolagents 入手；对于企业生产，建议重点评估 LangGraph、Microsoft Agent Framework、Google ADK、Haystack、LlamaIndex、Dify 和 Agno。

参考资料

OpenAI Agents SDK 官方文档： https://openai.github.io/openai-agents-python/
OpenAI API Agents SDK 指南： https://developers.openai.com/api/docs/guides/agents
LangGraph GitHub / 官方说明： https://github.com/langchain-ai/langgraph
Microsoft Agent Framework 官方概览： https://learn.microsoft.com/en-us/agent-framework/overview/
Microsoft Agent Framework Workflows： https://learn.microsoft.com/en-us/agent-framework/workflows/
AutoGen 官方文档： https://microsoft.github.io/autogen/stable/
Semantic Kernel GitHub / 文档： https://github.com/microsoft/semantic-kernel
CrewAI 官方文档： https://docs.crewai.com/
LlamaIndex Agent 文档： https://developers.llamaindex.ai/python/framework/use_cases/agents/
Google ADK 官方文档： https://docs.cloud.google.com/gemini-enterprise-agent-platform/build/adk
Haystack 官方文档： https://docs.haystack.deepset.ai/docs/intro
Haystack Agent 组件文档： https://docs.haystack.deepset.ai/docs/agent
Hugging Face smolagents 文档： https://huggingface.co/docs/smolagents/en/index
Dify 官方网站与 Agent Node 介绍： https://dify.ai/
Agno 官方网站与 GitHub： https://www.agno.com/