Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式,但是都存在根本性限制。第一种范式基于专门化框架构建智能体,采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好,但缺乏必要的灵活性,部署后智能体保持静态状态,无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身,包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式,但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化,依赖静态的手工制作反思工作流程,要么计算密集,需要对LLM模型参数进行梯度更新。

Memento的核心理念

面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战,Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应,完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹,在巩固过程中将其提炼为抽象规则,通过多巴胺驱动的信用分配机制进行选择性强化,并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察,LLM智能体不再依赖微调基础模型,而是利用外部记忆存储包含成功和失败标签的历史轨迹,从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理(Case-Based Reasoning, CBR),这是一种具有心理学基础的学习策略,有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构

Memento通过构建非参数化的即时框架来实现基于案例的推理,具体实例化为基于记忆的马尔可夫决策过程(Memory-based MDP)的规划器-执行器架构。该系统包含三个核心组件:规划器、工具增强执行器,以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同,Memento将记忆直接整合到决策过程中。给定当前状态,CBR模块检索相关案例并通过LLM进行重用和适配,这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策,使用案例检索策略为给定状态生成历史案例的概率分布,进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器,在基于案例的规划(上面的阶段1)和基于工具的执行(阶段2)之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体,该模块同时支持写入操作(记录新案例并在线优化Q函数)和读取操作(通过学习的检索策略检索案例以实现自适应案例选择)。执行器则是基于LLM的MCP客户端,通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景,Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务,系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。

实验结果与性能评估

实验在四个基准数据集上进行全面评估。GAIA基准测试长期工具使用能力,DeepResearcher评估实时网络研究性能,SimpleQA检验事实准确性,HLE则专注于长尾学术推理能力。系统采用规划器-执行器架构,使用GPT-4.1作为规划器,o4-mini作为默认执行器(GAIA基准使用o3),并配备完整的工具支持。

实验结果显示Memento在GAIA验证集上取得第一名(87.88% Pass@3),在私有测试排行榜上达到79.40%的成绩。在DeepResearcher数据集上实现66.6% F1分数和80.4% PM指标,超越了当前最先进的基于训练的系统。基于案例的记忆机制在分布外任务上带来4.7到9.6个绝对百分点的提升,在SimpleQA基准上达到95.0% PM。

这一方法代表了LLM智能体基于案例持续学习的首次尝试,在GAIA基准上实现顶级性能,为Deep Research智能体的持续适应提供了具有原则性的框架支撑。

总结

Memento通过其基于记忆的学习范式实现了重要突破,支持自适应在线搜索而无需更新模型权重。该方法将深度研究智能体形式化为基于记忆的MDP,在规划器-执行器框架内实现,利用情景案例库记录和检索轨迹以实现持续策略改进。作为该领域的开创性工作,Memento为未来智能体系统的发展奠定了重要基础。

论文:https://avoid.overfit.cn/post/b6655a71ece747729890be10959e8855

作者: Mayur Jain

相关推荐
埃菲尔铁塔_CV算法2 小时前
GAN 网络的核心功能与深度解析
网络·人工智能·深度学习·神经网络·生成对抗网络
IT_陈寒3 小时前
7个Vue 3.4新特性实战心得:从Composition到性能优化全解析
前端·人工智能·后端
淬炼之火3 小时前
pycharm无法添加本地conda解释器/命令行激活conda时出现很多无关内容
ide·人工智能·pycharm·conda
胖达不服输3 小时前
「日拱一码」076 深度学习——自然语言处理NLP
人工智能·python·深度学习·自然语言处理·nlp
LeonDL1683 小时前
基于YOLO11深度学习的植物叶片及缺陷检测系统【Python源码+Pyqt5界面+数据集+安装使用教程+训练代码】【附下载链接】
python·深度学习·yolo目标检测·yolov5数据集·yolov8数据集·yolo11数据集·植物叶片及缺陷检测系统
Lethehong3 小时前
从零开始在Ubuntu上快速部署Docker和Dify:结合 Dify + 蓝耘 MaaS平台打造 AI 应用实战指南
linux·人工智能·ubuntu·docker·蓝耘智算·蓝耘maas平台
盏灯3 小时前
🔥 手办AI + 邪修P图
人工智能
迪娜学姐3 小时前
顶级科学家的AI使用指南:从工具到合作伙伴
论文阅读·人工智能·chatgpt·prompt·论文笔记
小李小李无与伦比3 小时前
MinerU环境部署——PDF转Markdown
开发语言·python·深度学习·conda