【Datawhale2604】Hello-agents task01 智能体经典范式构建

系列文章目录


文章目录


前言


一、ReAct

ReAct 本质是一个闭环控制系统

  • LLM 是控制器,tool 是执行器,环境是被控对象,Observation 是传感器反馈。
环节 控制论对应 作用 教材代码体现
Thought 状态估计+策略计算 基于历史观测,决定下一步动作 response_text 中的思考段落
Action 控制指令下发 调用具体工具(Search/Calculator等) Action: Search[...]
Observation 传感器反馈 返回环境真实状态,修正模型认知 tool_function(tool_input) 返回值
History 状态记忆寄存器 累积 (a, o) 对,维持上下文连续性 self.history.append(...)
  • 用 Mermaid 看清数据及状态如何在循环中累积:

输出 Thought+Action
Finish 答案
ToolName input
返回 Observation
拼接为新 Prompt
用户问题
初始化 Prompt
调用 LLM
正则解析
返回最终结果
调用 ToolExecutor
更新 self.history


二、Plan-and-Solve


三、 Reflection

  • Reflection 不是"多调一次 LLM",而是认知范式的根本切换
范式 认知模式 人类类比 核心缺陷
Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿 成本高,但产出质量呈阶梯式跃升
  1. 角色解耦:LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者Critic 评审员,利用不同 Prompt 激活不同的参数子空间。
  2. 质量驱动 vs 进度驱动:前两种范式追求"完成任务",Reflection 追求"达到质量标准"。它把任务从开环控制(Open-loop)升级为带监督的闭环控制(Closed-loop with Supervisor)。
  3. 收敛思维:人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑,否则会变成无限内耗。

Iteration_Loop
输入任务 Task
调用 Generator 生成 O_0
存入 Memory,触发 Critic
生成反馈 F_i
未达到收敛标准
更新 O_{i+1},存入 Memory
满足收敛条件 (e.g., 无需改进/分数≥阈值/达最大轮次)
输出最终方案 O_final
INIT
EXEC
REFLECT
CHECK_SCORE
REFINE
TERMINATE


总结

相关推荐
eastyuxiao7 小时前
思维导图拆解项目范围 3 个真实落地案例
大数据·运维·人工智能·流程图
风落无尘7 小时前
《智能重生:从垃圾堆到AI工程师》——第五章 代码与灵魂
服务器·网络·人工智能
冬奇Lab7 小时前
RAG 系列(八):RAG 评估体系——用数据说话
人工智能·llm
landyjzlai8 小时前
蓝迪哥玩转Ai(8)---端侧AI:RK3588 端侧大语言模型(LLM)开发实战指南
人工智能·python
ZhengEnCi10 小时前
05-自注意力机制详解 🧠
人工智能·pytorch·深度学习
前端程序媛-Tian11 小时前
前端 AI 提效实战:从 0 到 1 打造团队专属 AI 代码评审工具
前端·人工智能·ai
weixin_4171970511 小时前
DeepSeek V4绑定华为:一场飞行中换引擎的国产算力革命
人工智能·华为
梦想画家11 小时前
Agentic RAG:从“被动检索”到“主动决策”的架构演进
rag·智能体·agentic rag