【Agent】Agentic Reasoning for Large Language Models

note

  • Agentic Reasoning for Large Language Models
  • 自进化推理机制,演化的核心包含两个基本机制:反馈与记忆。反馈为自我修正与优化提供评估信号,使智能体能够根据结果或环境响应来调整其推理策略。记忆则作为持久的基底,用于存储、组织和综合过往交互,从而实现跨任务的知识积累与复用。
    • 其中,反思包括三种。反思性反馈,模型通过自我批判或验证来修正其推理;参数化适应,将反馈整合为更新后的模型参数;以及验证器驱动的反馈,通过二元结果信号引导重采样,无需内部反思。

文章目录

一、Agentic Reasoning LLM

《Agentic Reasoning for Large Language Models》(https://arxiv.org/pdf/2601.12538,https://github.com/weitianxin/Awesome-Agentic-Reasoning)。看核心6个点,其中做了一些罗列,是个不错的索引。

1、大语言模型推理 VS 智能体推理

与传统LLM推理相比,关键差异体现在范式(被动→交互)、输入(静态→动态)、计算(单步→多步)、记忆(上下文窗口→外部记忆)、学习(离线预训练→持续改进)等维度

2、两种优化模式

两种优化模式:两种优化模式的核心区别在于是否更新模型参数

上下文内推理(无参数更新) 方式,通过结构化编排、树搜索、自适应工作流等方式,在推理时动态调整交互流程,代表方法有ReAct、ToT,在在不更新参数的情况下扩展推理时的交互。

训练后推理(有参数更新) 方式,通过监督微调(SFT)、强化学习(RL,如PPO、GRPO)将成功的推理模式内化到模型权重,代表方法有ToolLLM(SFT)、Search-R1(RL)。

3、工具使用优化

工具使用最优化,可分为三种风格:上下文内工具集成、后训练工具集成,以及编排式工具集成。

具体分类:

优化传统RAG依赖于向量数据库上的静态检索,而Agentic搜索引入了自主决策机制,以决定何时、如何以及检索什么内容,从而实现动态搜索、上下文检索、批判与适应环以及工具使用。

具体实现范式可以分为上下文内In-Context Search、后训练Post-Training Searc和结构增强型Structure-Enhanced Search几种实现,现有系统的具体情况如下表所示,可以看其中的方法、结构、数据格式以及使用的工具。

5、自进化推理机制

演化的核心包含两个基本机制:反馈与记忆。反馈为自我修正与优化提供评估信号,使智能体能够根据结果或环境响应来调整其推理策略。记忆则作为持久的基底,用于存储、组织和综合过往交互,从而实现跨任务的知识积累与复用。

其中,反思包括三种。反思性反馈,模型通过自我批判或验证来修正其推理;参数化适应,将反馈整合为更新后的模型参数;以及验证器驱动的反馈,通过二元结果信号引导重采样,无需内部反思。

当前代表的工作,其反馈阶段、反馈来源以及更新的目标可以看下:

6、Agentic Memory记忆

从实现上,分成多种:上下文记忆捕获先前交互中的文本和语义信息;结构化记忆将这些信息整合为图表示和多模态表示;后训练控制使智能体能够通过学成的基于奖励的机制,实现记忆的演化、更新和检索。

依旧可以从当前的代表记忆系统中做个归类:

Reference

1\] Agentic Reasoning for Large Language Models

相关推荐
无极低码4 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
GJGCY9 小时前
中小企业财务AI工具技术评测:四大类别架构差异与选型维度
大数据·人工智能·ai·架构·财务·智能体
余衫马9 小时前
Agent Skills 实战(.NET):理论 × 代码 × 企业案例
人工智能·.net·agent·skill·openclaw
小编9 小时前
Agent 时代,App 会消失吗?
agent
Gale2World10 小时前
OpenClaw 技术专题 (三):行动层与现实世界交互 (The Hands)
agent
洛阳泰山10 小时前
MaxKB4j Docker Compose 部署指南
java·docker·llm·springboot·rag·maxkb4j
ljq10 小时前
LLM大模型会话ID身份跟踪标识原理解构:从模型无状态下的会话ID(Session ID)原理分析以及自主实现会话跟踪
agent·ai编程
大模型真好玩11 小时前
大模型训练全流程实战指南工具篇(九)——LLamaFactory大模型训练工具使用指南
人工智能·agent·deepseek
Flittly11 小时前
【从零手写 ClaudeCode:learn-claude-code 项目实战笔记】(9)Agent Teams (智能体团队)
python·agent
华农DrLai11 小时前
什么是Prompt工程?为什么提示词的质量决定AI输出的好坏?
数据库·人工智能·gpt·大模型·nlp·prompt