以下是针对文档中第5章和第6章的详细总结。我基于原文内容,提取了核心概念、关键流程、应用场景及要点,并确保结构丰富,分章节组织。对于有图片的章节,我在相关描述附近嵌入了对应的图片标签,以增强可视化。
第5章:工具使用(函数调用)总结
核心概念
工具使用模式(常通过函数调用实现)使智能体能够与外部API、数据库或服务交互,从而突破LLM的内部知识限制,访问实时信息或执行具体操作。该模式是连接LLM推理能力与外部功能的技术桥梁。
关键流程
- 工具定义:向LLM描述外部函数,包括用途、参数和说明。
- LLM决策:LLM根据用户请求判断是否需要调用工具。
- 函数调用生成:LLM生成结构化请求(如JSON),指定工具名和参数。
- 工具执行:框架实际执行外部函数。
- 观察结果:工具输出返回给智能体。
- LLM处理:智能体整合结果生成最终回复或下一步决策。
应用场景
- 外部信息检索:如天气API查询实时数据。
- 数据库交互:查询或更新结构化数据。
- 计算与数据分析:使用计算器或统计工具。
- 通讯发送:通过邮件或消息API触发操作。
- 代码执行:在安全环境中运行代码片段。
- 控制系统:操作物联网设备或智能家居。
工具使用模式将LLM从文本生成器升级为具备感知、推理和行动能力的智能体。

关键要点
- 工具使用是智能体与真实世界交互的基础,依赖框架(如LangChain、Google ADK)的标准集成。
- 优势包括实时数据访问、动作执行和准确性提升,但需权衡延迟和复杂性。
- 模式支持"智能体即工具"的层级协作,如主智能体委托子任务给专用智能体。
第6章:规划总结
模式概述
规划模式使智能体能够将复杂目标拆解为可执行的步骤序列,实现前瞻性思考和策略制定。它涉及动态生成计划、监控进度并适应变化,适用于需要多步推理或依赖管理的任务。
典型流程
- 目标理解:智能体分析初始状态(如用户需求)和目标状态。
- 计划生成:根据任务描述自动创建行动序列(如通过LLM或算法)。
- 执行与监控:按步骤执行计划,并跟踪进展。
- 适应与优化:根据环境反馈(如障碍或新信息)调整计划。
应用场景
- 流程自动化:如企业入职流程的步骤编排。
- 机器人与导航:生成路径规划以避免障碍。
- 内容生成:先制定大纲再撰写文章。
- 问题求解:分解逻辑谜题为中间步骤。
- 战略制定:评估业务计划的可行性。
规划模式将智能体从反应式系统转变为目标驱动实体,结合反思(第4章)可迭代优化输出。

关键要点
- 规划依赖LLM的推理能力或专用算法(如PPO强化学习),需平衡灵活性与确定性。
- 在复杂环境中(如自动驾驶或项目管理),规划支持容错和重新决策。
- 与工具使用结合时,智能体能调用外部资源(如Google搜索)丰富计划数据。
- 挑战包括计算开销和动态环境的不确定性,需通过状态管理(如LangGraph)优化。
两章关联与整体意义
第5章的工具使用和第6章的规划共同构建了智能体的核心能力:
- 工具使用提供"行动手段",使智能体能操作外部系统。
- 规划 提供"策略框架",指导智能体有序执行复杂任务。
例如,一个调研智能体可先规划"检索数据→分析→生成报告"的步骤(规划),再调用搜索API和计算工具(工具使用)实现目标。这种组合使智能体系统更健壮、自适应,适用于真实场景如客服自动化或金融分析。
第5章与第6章内容详细总结
核心结论
第5章"工具使用(函数调用)"聚焦智能体突破LLM自身局限的核心能力,通过标准化函数调用机制实现与外部系统的交互;第6章"规划"则聚焦智能体的前瞻性能力,将复杂目标拆解为可执行步骤并动态调整,二者共同构成智能体"能行动、会思考"的核心基础。
第5章:工具使用(函数调用)详细总结
模式概述
工具使用模式通过"函数调用"机制,让智能体能够与外部API、数据库、代码解释器等系统交互,突破LLM预训练知识的静态限制,具备访问实时信息、执行精确计算、操作专属数据等能力,是智能体从"文本生成器"升级为"行动执行者"的关键。
核心流程
- 工具定义:向LLM清晰描述外部函数的用途、名称、参数类型及说明。
- LLM决策:LLM根据用户请求和工具定义,判断是否需要调用工具及调用哪类工具。
- 函数调用生成:LLM生成结构化输出(通常为JSON),明确工具名称和参数。
- 工具执行:智能体框架拦截结构化请求,调用外部函数并执行。
- 结果反馈:工具执行结果返回给智能体,作为后续决策或生成最终回复的上下文。
关键特性
- 突破LLM局限:解决知识静态、无法执行实时操作的问题。
- 结构化交互:依赖标准化的调用格式(如JSON)确保参数传递准确性。
- 多框架支持:LangChain、Google ADK、CrewAI等主流框架均提供工具集成能力。
实践应用与场景
工具使用模式适用于所有需要超越文本生成的场景,典型应用包括:
- 外部信息检索:调用天气API、股票数据API获取实时信息。
- 数据库与API交互:查询电商库存、订单状态,操作结构化数据。
- 计算与数据分析:使用计算器工具、代码解释器完成精确计算或数据处理。
- 通讯执行:调用邮件API、消息API发送通讯内容。
- 代码执行:在安全环境中运行代码片段,分析结果或完成开发任务。
- 设备控制:调用智能家居、物联网设备API实现物理世界交互。
实战代码示例核心逻辑
LangChain框架示例
- 核心思路:定义工具函数→绑定LLM→创建工具调用智能体→执行交互。
- 关键代码:通过
@langchain_tool装饰器定义工具,使用create_tool_calling_agent创建智能体,AgentExecutor管理工具调用流程。 - 示例功能:模拟搜索工具,响应"法国首都""伦敦天气"等查询,返回预设结果。
CrewAI框架示例
- 核心思路:定义专业工具→创建具备工具使用能力的智能体→分配具体任务→执行协作。
- 关键代码:通过
@tool装饰器定义股票价格查询工具,创建"金融分析师"智能体并绑定工具,指定任务后由Crew调度执行。 - 示例功能:查询指定股票(如AAPL)的模拟实时价格,返回结构化结果。
Google ADK框架示例
- 核心思路:利用ADK内置工具库或自定义工具→配置智能体工具集→实现特定场景交互。
- 关键工具:Google搜索工具(网页检索)、代码执行工具(沙箱运行Python代码)、Vertex AI Search工具(企业知识库检索)。
- 示例功能:创建计算器智能体,编写并执行数学计算代码;创建搜索智能体,通过Google搜索回答实时问题。
关键要点
- 工具定义需清晰:明确函数用途、参数格式,便于LLM理解和调用。
- 结构化输出是关键:采用JSON等格式确保工具调用请求的可解析性,减少交互错误。
- 多框架差异:LangChain侧重工具与链的灵活组合,Google ADK提供内置工具库,CrewAI适合多智能体协作中的工具分工。
- 安全性考量:需限制工具访问权限,避免敏感操作风险(如未授权的数据修改)。
第6章:规划详细总结
模式概述
规划模式是智能体将高层、复杂目标拆解为一系列可管理、有逻辑的子步骤,并根据执行过程中的新信息动态调整方案的能力。核心是让智能体从"被动响应"转变为"主动规划者",具备前瞻性和适应性。
核心特性
- 目标导向:以最终目标为核心,倒推或顺推执行路径。
- 适应性调整:当执行过程中遇到障碍(如首选方案不可用),能重新评估并优化计划。
- 依赖管理:处理子步骤间的先后依赖关系,确保执行逻辑连贯。
与其他模式的关联
- 与提示链:规划是提示链的"战略指导",提示链是规划的"执行落地"。
- 与工具使用:规划决定何时、如何调用工具,工具使用为规划提供执行支撑。
实践应用与场景
规划模式适用于需多步协作、复杂流程管理的场景,典型应用包括:
- 流程自动化:如企业新员工入职(创建账号、分配培训、协调部门对接)。
- 机器人与自主导航:如自动驾驶车辆的路径规划(避障、路线优化、时间预估)。
- 结构化内容生成:如复杂报告撰写(信息收集、数据整合、逻辑排版)。
- 多步骤客户支持:如故障诊断(问题定位、解决方案推荐、后续跟进)。
- 项目管理:如团队团建规划(预算审批、场地选择、行程安排、员工反馈收集)。
实战代码示例核心逻辑
CrewAI框架示例
- 核心思路:创建具备规划能力的智能体→定义"先规划后执行"的任务→指定顺序执行流程。
- 关键代码:定义"文章规划与写作专家"智能体,任务要求先制定摘要要点计划,再根据计划撰写200字摘要,通过
Process.sequential确保流程顺序。 - 示例功能:针对"强化学习在AI中的重要性"主题,先生成结构化大纲,再完成摘要撰写。
Google DeepResearch示例
- 核心思路:多步骤智能体管道→动态迭代搜索与分析→结构化报告生成。
- 关键流程:先拆解用户请求为研究计划→用户审核确认→迭代调用Google搜索补充信息→整合结果生成带引用的多页报告。
- 示例功能:分析"欧洲风险投资趋势",自动检索数据、验证信息、结构化呈现结果。
OpenAI Deep Research API示例
- 核心思路:API驱动的自动化研究→多步骤透明化→结构化报告输出。
- 关键代码:调用
o3-deep-research模型,指定web_search_preview工具,生成带内嵌引用、中间推理步骤的报告。 - 示例功能:研究"司美格鲁肽对全球医疗体系的经济影响",自动拆解子问题、检索资源、整合分析。
关键要点
- 目标拆解颗粒度:子步骤需足够具体,既避免过于琐碎,也防止遗漏关键环节。
- 动态调整机制:需预留"重新规划"接口,应对执行中的意外(如资源不可用、需求变更)。
- 多模型支持:Google Gemini、OpenAI GPT-4o等模型具备强大的规划能力,可通过提示工程强化。
- 可追溯性:复杂场景下需记录规划迭代过程,便于调试和优化。
图表框架总结
第5章工具使用(函数调用)框架图


第6章规划框架图

两章关联逻辑框架图

最终总结
第5章"工具使用"为智能体提供了"行动的手脚",通过函数调用实现与外部世界的交互,解决了"能做什么"的问题;第6章"规划"为智能体提供了"思考的大脑",通过目标拆解与动态调整,解决了"如何做好"的问题。二者相辅相成,工具使用是规划落地的支撑,规划是工具使用的指导,共同构成智能体处理复杂任务的核心能力体系,为后续多智能体协作、长期任务管理等高级功能奠定基础。