Self-Improving Agent 全详解:从原理到落地,打造会自我进化的AI智能体
-
- [前言:为什么你一定要学会Self-Improving Agent?](#前言:为什么你一定要学会Self-Improving Agent?)
- 核心概念扫盲:到底什么是自我进化智能体?
- 底层逻辑:自我进化的完整闭环拆解
- 核心架构:三层记忆系统全详解
-
- 整体架构设计
- 每一层记忆的详细设计
-
- [1. 热记忆区(Hot Memory)](#1. 热记忆区(Hot Memory))
- [2. 温记忆区(Warm Memory)](#2. 温记忆区(Warm Memory))
- [3. 冷记忆区(Cold Memory)](#3. 冷记忆区(Cold Memory))
- [4. 记忆索引文件(memory-index.md)](#4. 记忆索引文件(memory-index.md))
- 6大核心能力模块:让AI真正越用越聪明
-
- [1. 自动纠错与避坑能力](#1. 自动纠错与避坑能力)
- [2. 用户偏好自主学习能力](#2. 用户偏好自主学习能力)
- [3. 成功经验跨场景复用能力](#3. 成功经验跨场景复用能力)
- [4. 自主复盘与流程优化能力](#4. 自主复盘与流程优化能力)
- [5. 规则自动晋升与归档能力](#5. 规则自动晋升与归档能力)
- [6. 多维度反馈融合能力](#6. 多维度反馈融合能力)
- 从零到一落地:3种可直接复用的实现方案
- 高频踩坑与避坑指南
- [进阶玩法:与其他Agent Skills联动升级](#进阶玩法:与其他Agent Skills联动升级)
-
- [1. 与Skill-Vetter(技能审核)联动](#1. 与Skill-Vetter(技能审核)联动)
- [2. 与Agent-Browser(浏览器智能体)联动](#2. 与Agent-Browser(浏览器智能体)联动)
- [3. 与Summarize(总结技能)联动](#3. 与Summarize(总结技能)联动)
- [4. 与多Agent协作系统联动](#4. 与多Agent协作系统联动)
- 每日打卡实操任务:5分钟就能上手
- 总结
前言:为什么你一定要学会Self-Improving Agent?
系列定位:每天拆解一个AI Agent核心技能,从入门到落地,零门槛上手,让AI真正帮你自动干活
适合人群:AI效率玩家、个人开发者、产品经理、想要打造专属AI助手的所有人
你是不是也遇到过这些AI使用的终极痛点?
- 反复跟AI强调"我要Markdown格式、不要废话、代码要加注释",下一次对话它又打回原形
- 同一个项目里,刚纠正过的代码bug、文案风格、数据口径,换个任务它又犯了一模一样的错
- 用了很久的AI助手,依然像个"陌生人",完全记不住你的工作习惯、偏好禁忌、过往经验
- 做复杂项目时,AI只能单次响应,不会从之前的成功/失败案例里学习,每次都要从零开始对齐
绝大多数人用AI,都停留在「单次会话工具」的阶段:你给指令,它给结果,对话结束,记忆清零。哪怕是带上下文的长会话,也只能记住临时信息,无法形成长期、可复用、自动迭代的成长体系。
而今天我们要拆解的Self-Improving Agent(自我进化智能体),就是解决这个问题的终极方案。它不是给AI加一个简单的记忆本,而是给AI装上一套「大脑学习系统」,让它像人一样,能从每一次交互、每一次任务、每一次反馈里,自动提炼经验、优化行为、沉淀规则,真正实现「越用越懂你,越用越好用」。
核心概念扫盲:到底什么是自我进化智能体?
基础定义
Self-Improving Agent,即自我进化智能体,是一种具备自主反思、自动学习、持续迭代能力的AI智能体。它能在无需人工手动干预的前提下,从历史交互、任务结果、用户反馈、报错信息中自动提取可优化的规则,更新自身的行为逻辑与记忆体系,从而在后续任务中持续提升输出质量与匹配度。
关键区别:和普通AI、带记忆的AI有什么不一样?
很多人会把它和"带上下文的对话AI""有知识库的RAG智能体"搞混,这里用一张表讲清楚本质差异:
| 类型 | 核心能力 | 记忆逻辑 | 进化方式 | 核心痛点 |
|---|---|---|---|---|
| 普通对话AI | 单次指令响应 | 临时会话记忆,关闭即清零 | 完全依赖用户手动提示 | 每次都要重新对齐,重复劳动拉满 |
| 带RAG的知识库AI | 基于检索的内容生成 | 静态存储固定知识,不会自动更新 | 人工手动上传文档更新知识库 | 只能记"知识",不会记"怎么做",无法优化行为 |
| 普通规则型Agent | 按预设流程执行任务 | 固定规则,写死在提示词里 | 人工手动修改提示词/规则 | 规则僵化,无法适配动态变化的需求,维护成本极高 |
| Self-Improving Agent | 自主反思+自动迭代+持续进化 | 动态分层记忆系统,自动更新、自动归档 | 自主从反馈中提炼规则,自动升级行为逻辑 | 几乎无,唯一门槛是初始架构设计 |
一句话讲透核心差异:其他AI是"你教它一句,它学一句",而Self-Improving Agent是"你给它一次反馈,它学会一整套规则,并且以后再也不会犯同样的错"。
底层逻辑:自我进化的完整闭环拆解
Self-Improving Agent的核心,是一套全自动、可循环、自驱动的学习闭环,整个流程无需人工手动干预,就能完成从"经验"到"能力"的转化。完整闭环分为6个核心步骤,环环相扣:
步骤1:触发节点:什么情况下会启动自我进化?
不是每一次对话都要启动进化,那样会导致记忆爆炸,只有满足触发条件时,才会启动闭环。核心触发节点包括:
- 用户明确反馈:用户提出修改意见、纠正错误、表达偏好/不满
- 任务完成验收:复杂任务(如代码开发、文案撰写、方案设计)完成后,自动触发复盘
- 执行报错/失败:代码运行报错、工具调用失败、任务执行超时/异常
- 高频重复行为:连续3次以上出现相同的指令、偏好、修改要求
- 固定周期复盘:每日/每周/每个项目结束后,自动触发全量复盘优化
步骤2:信息采集:到底要"学"什么内容?
触发后,Agent会自动采集本次交互中的核心信息,过滤无效噪音,只保留和"行为优化"相关的内容:
- 用户的明确偏好:格式要求、风格偏好、禁忌内容、输出标准
- 错误与修正记录:本次出现的错误、用户给出的正确方案、修正后的结果
- 成功经验:本次任务中用户认可的亮点、高效的执行流程、符合预期的输出方式
- 工具调用反馈:工具调用的成功/失败记录、参数优化点、调用时机调整
- 任务执行效率:本次任务的步骤冗余、耗时过长、逻辑漏洞等可优化点
步骤3:自我反思与评估:为什么会出问题?哪里可以做得更好?
这是Self-Improving Agent和其他AI最核心的区别------自主反思能力。Agent会站在第三方视角,对本次任务的全流程进行复盘评估,核心回答3个问题:
- 本次任务的输出,是否完全匹配用户的核心需求?哪里不符合?
- 本次出现的问题,是偶发失误,还是底层逻辑/规则缺失导致的?
- 本次的成功经验/修正方案,能不能抽象成通用规则,用到后续的所有同类任务中?
举个例子:
- 普通AI:用户说"这个文案太生硬了,改得温柔一点",它只会改这一篇文案
- Self-Improving Agent:会反思"用户偏好温柔的文案风格,具体表现为:少用祈使句、多用共情表达、结尾加正向引导",然后把这个规则沉淀下来
步骤4:规则抽象与提炼:把零散经验,变成可执行的通用规则
这一步是把"具体的单次反馈",转化成"通用的行为准则",避免只会解决单一问题。抽象规则的核心标准是:
- 通用性:能覆盖同类所有场景,而不是只解决单次问题
- 可执行性:有明确的判断标准和执行要求,不是模糊的描述
- 无冲突:和已有的规则不冲突,冲突时自动按优先级覆盖
- 可追溯:标注规则的来源、触发时间、适用场景
比如,把用户的单次反馈"这个表格里的数字要保留2位小数",抽象成通用规则:
markdown
【规则ID:RULE-FORMAT-001】
适用场景:所有包含数值的表格、数据统计类输出
执行标准:所有非百分比的数值,统一保留2位小数;百分比数值保留1位小数
优先级:中
生效时间:2026-04-02
来源:用户反馈,表格数值格式优化
步骤5:记忆更新与归档:把规则存到正确的位置,确保能被调用
提炼好的规则,不会随便堆在一个文档里,而是按照「三层记忆系统」,自动分类、更新、归档,核心逻辑:
- 高频通用规则:存入「热记忆」,每次对话都自动加载
- 项目/领域专属规则:存入「温记忆」,对应场景触发时自动加载
- 低频/过期规则:自动归档到「冷记忆」,仅在相关检索时调用
- 冲突规则:自动对比优先级,保留高优先级规则,低优先级规则归档备份
步骤6:行为迭代与验证:下次任务,自动用新规则执行
这是闭环的最后一步,也是最终的价值落地。在下一次同类任务启动时,Agent会自动加载对应的规则,直接应用到执行流程中,并且在任务完成后,再次验证规则的有效性,完成二次优化。
至此,一个完整的「反馈→反思→提炼→沉淀→应用→验证」的自我进化闭环就完成了,并且这个闭环会无限循环,让Agent的能力持续提升。
核心架构:三层记忆系统全详解
Self-Improving Agent的核心载体,是一套分层动态记忆系统。它解决了两个核心问题:一是避免所有规则都堆在上下文里,导致Token浪费、上下文污染;二是确保正确的规则,在正确的场景被调用,不会出现规则混乱。
整体架构设计
我们采用行业通用的「热-温-冷」三层记忆架构,兼顾调用效率、Token成本、记忆持久化,完整的文件结构如下:
self-improving-agent/
├── 01-hot-memory/ # 热记忆区:始终加载,核心规则
│ ├── core-principles.md # 核心原则:最高优先级,不可覆盖
│ ├── user-preferences.md # 用户核心偏好:全场景通用
│ └── high-frequency-rules.md # 高频通用规则:使用频率≥5次
├── 02-warm-memory/ # 温记忆区:按需加载,场景专属
│ ├── project-memory/ # 项目专属记忆
│ │ ├── blog-project.md
│ │ ├── java-dev-project.md
│ │ └── ...
│ └── domain-memory/ # 领域专属记忆
│ ├── copywriting-rules.md
│ ├── code-dev-rules.md
│ ├── data-analysis-rules.md
│ └── ...
├── 03-cold-memory/ # 冷记忆区:归档存储,检索调用
│ ├── archive-rules/ # 归档过期/低频规则
│ ├── history-interaction/ # 历史交互全量记录
│ └── task-archive/ # 历史任务复盘记录
└── memory-index.md # 记忆索引:全量规则的检索目录
每一层记忆的详细设计
1. 热记忆区(Hot Memory)
-
定位 :Agent的"短期工作记忆",相当于电脑的内存,每次对话100%自动加载,优先级最高
-
存储内容:仅存储全场景通用、最高优先级、高频使用的规则,严格控制体积(总内容≤1000Token,约700字)
-
核心存储文件详解:
-
core-principles.md:核心原则,不可被任何其他规则覆盖,示例内容:markdown# 核心原则(最高优先级,不可覆盖) 1. 所有输出必须严格遵守用户的指令要求,不得擅自偏离核心需求 2. 禁止生成虚假、错误、违法违规的内容,所有数据必须标注来源 3. 所有代码必须添加详细注释,复杂逻辑必须补充执行说明 4. 所有输出必须优先使用Markdown格式排版,结构清晰易读 5. 当用户的需求不明确时,必须先追问确认,不得盲目输出 -
user-preferences.md:用户全场景通用的核心偏好,示例内容:markdown# 用户核心偏好(全场景生效) 1. 语言风格:简洁直白,无废话,重点内容加粗标注 2. 输出格式:优先使用Markdown,长内容必须加目录、分段落 3. 代码偏好:Java代码使用SpringBoot规范,Python代码符合PEP8规范 4. 禁忌内容:禁止使用网络热梗、禁止生成过于口语化的内容、禁止无意义的客套话 -
high-frequency-rules.md:使用频率≥5次的高频通用规则,按优先级排序
-
-
更新规则:仅当规则使用频率达到阈值、用户明确要求全场景生效、核心原则变更时,才会更新,避免频繁变动
-
核心价值:确保用户最核心的要求,永远不会被忘记,每次对话都能直接生效
2. 温记忆区(Warm Memory)
-
定位 :Agent的"长期场景记忆",相当于电脑的硬盘,仅在对应场景触发时自动加载,优先级仅次于热记忆
-
存储内容:项目专属、领域专属的规则,不限制体积,但按场景拆分,避免一次性加载过多内容
-
核心存储模块详解:
-
project-memory/:项目专属记忆,每个项目一个独立文件,存储该项目的所有专属规则、规范、历史经验、踩坑记录。比如博客项目的记忆文件示例:markdown# 博客项目专属记忆 ## 项目基础信息 - 项目名称:每天学习一个Agent Skills系列博客 - 输出标准:每篇博客结构完整、逻辑清晰、可直接发布 ## 专属规则 1. 标题格式:必须符合「每天学习一个Agent Skills|XXX:XXX」的固定格式 2. 内容结构:必须包含前言、核心概念、原理拆解、实操步骤、避坑指南、总结 3. 每篇博客必须对应系列视频,开头标注视频链接 4. 结尾必须添加每日实操任务,贴合系列"每天学习一个Skills"的定位 ## 历史踩坑记录 1. 禁止使用过于晦涩的专业术语,必须给零基础用户讲明白 2. 必须给可落地的实操方案,不能只讲理论 -
domain-memory/:领域专属记忆,每个领域一个独立文件,存储该领域的通用规则、行业规范、最佳实践。比如代码开发领域的记忆文件示例:markdown# 代码开发领域通用规则 ## Java开发规范 1. 必须使用SpringBoot 3.x+版本,兼容JDK17+ 2. 所有接口必须统一返回格式,包含code、msg、data三个字段 3. 所有数据库操作必须使用MyBatis-Plus,禁止手写复杂SQL ## Python开发规范 1. 必须符合PEP8编码规范,缩进使用4个空格 2. 所有函数必须添加文档字符串,说明参数、返回值、功能 3. 第三方依赖必须标注版本号,写入requirements.txt
-
-
更新规则:对应项目/领域的任务完成、收到反馈、出现报错时,自动更新对应文件
-
加载规则:通过用户的指令关键词,自动匹配对应的场景,加载对应的记忆文件。比如用户说"帮我写一篇系列博客",就自动加载博客项目的记忆文件;用户说"帮我写一个Java接口",就自动加载Java开发领域的记忆文件
-
核心价值:既保证了不同场景下的规则精准匹配,又避免了所有规则都堆在上下文里,浪费Token
3. 冷记忆区(Cold Memory)
- 定位 :Agent的"归档记忆库",相当于电脑的移动硬盘,仅在用户主动检索、关键词强匹配时才会调用,优先级最低
- 存储内容:低频使用的规则、过期的项目记忆、历史交互全量记录、历史任务复盘记录
- 更新规则:当规则连续30天未被使用、项目已完结、规则已被更高优先级的规则覆盖时,自动归档到冷记忆区
- 核心价值:永久保存所有历史经验,不会丢失,同时避免无效内容占用上下文Token,保证Agent的执行效率
4. 记忆索引文件(memory-index.md)
- 定位:全量记忆的"目录与搜索引擎",相当于图书馆的检索系统
- 存储内容:所有记忆文件的目录、规则ID、适用场景、关键词、存储位置
- 核心作用:Agent可以通过关键词检索,快速定位到对应的记忆文件,精准调用对应的规则
6大核心能力模块:让AI真正越用越聪明
Self-Improving Agent的能力,不是单一的记忆功能,而是6个核心能力模块的组合,每个模块都可以单独配置、单独优化,下面我们逐个拆解:
1. 自动纠错与避坑能力
- 核心定义 :Agent能从每一次错误、报错、用户的纠正中,自动提炼避坑规则,确保同样的错误,绝对不会犯第二次
- 实现逻辑:错误触发→采集错误信息与修正方案→抽象避坑规则→存入对应记忆区→下次同类场景自动校验规避
- 落地场景:代码开发bug修复、文案内容纠错、数据口径错误修正、流程执行失误规避
- 实操示例 :
- 第一次:用户让AI写Java接口,AI没有做参数校验,导致空指针异常,用户指出后,AI修正了代码
- 自我进化:Agent自动提炼规则「所有Java接口的入参,必须做非空校验,必填参数必须加@NotNull注解」,存入Java开发领域的温记忆
- 第二次:用户再让AI写Java接口,AI自动给所有入参加上了非空校验,从根源上避免了同样的bug
2. 用户偏好自主学习能力
- 核心定义:Agent能从用户的每一次反馈、修改、偏好表达中,自动捕捉用户的习惯、风格、禁忌,并且长期遵循,无需反复强调
- 实现逻辑:捕捉用户偏好信号→抽象成可执行的标准→存入用户偏好记忆→全场景/对应场景自动生效
- 落地场景:文案写作风格、输出格式规范、沟通语气偏好、内容结构要求、禁忌内容规避
- 实操示例 :
- 第一次:用户让AI写产品文案,说"不要太官方,要像和朋友聊天一样,结尾加一句互动提问",AI修改后用户认可
- 自我进化:Agent自动提炼规则「产品文案风格:口语化、共情式表达,避免官方套话,结尾必须加一句和用户相关的互动提问」,存入文案写作领域的温记忆
- 后续:用户再让AI写产品文案,AI自动匹配这个风格,无需用户再次强调
3. 成功经验跨场景复用能力
- 核心定义:Agent能把单次任务中的成功经验、高效流程、优质方案,抽象成通用方法论,跨任务、跨场景复用,不用每次都从零开始
- 实现逻辑:任务完成验收→提炼成功核心要素→抽象成通用流程/模板→存入对应记忆区→同类任务自动套用优化
- 落地场景:项目方案设计、代码框架搭建、文案模板沉淀、数据分析流程、汇报PPT结构
- 实操示例 :
- 第一次:用户让AI做一个电商项目的需求分析方案,AI输出的方案包含「项目背景、需求拆解、功能模块、技术选型、排期规划、风险评估」6个模块,用户非常认可
- 自我进化:Agent自动提炼规则「需求分析方案通用结构:必须包含项目背景、需求拆解、功能模块、技术选型、排期规划、风险评估6个核心模块」,存入产品方案领域的温记忆
- 后续:用户让AI做一个OA系统、一个小程序的需求分析,AI自动套用这个成熟的结构,并且根据项目特点优化,输出质量一次比一次高
4. 自主复盘与流程优化能力
- 核心定义:复杂任务完成后,Agent能主动对全流程进行复盘,找到冗余步骤、低效环节、逻辑漏洞,自动优化执行流程,让后续任务的执行效率越来越高
- 实现逻辑:任务完成→全流程复盘→找到可优化点→优化执行流程→更新任务执行SOP→下次任务自动使用优化后的流程
- 落地场景:多步骤复杂任务、工具调用流程、自动化任务、多Agent协作流程
- 实操示例 :
- 第一次:用户让AI做一份行业数据分析报告,Agent的执行流程是:先搜行业数据→再整理数据→再做数据分析→再写报告→最后调整格式,全程分5步,耗时较长
- 自主复盘:Agent发现,整理数据和格式调整可以合并,搜数据的时候就可以按照报告的结构整理,减少重复工作,优化成3步流程:明确报告结构→按结构检索并整理数据→撰写报告并同步完成格式调整
- 后续:再做数据分析报告时,Agent用优化后的流程,执行效率提升了40%,步骤更少,出错率更低
5. 规则自动晋升与归档能力
- 核心定义:Agent能自动统计规则的使用频率、生效效果,把高频使用的规则自动晋升到热记忆,把低频、过期的规则自动归档到冷记忆,确保记忆系统始终高效、不臃肿
- 实现逻辑:定期统计规则使用数据→符合晋升阈值的规则自动晋升到热记忆→符合归档阈值的规则自动归档到冷记忆→更新记忆索引
- 核心价值:彻底解决"记忆爆炸"的问题,避免记忆系统越来越臃肿,导致调用混乱、Token浪费
- 实操示例 :
- 一条「所有输出必须使用Markdown格式」的规则,连续10次任务都被调用,使用频率极高
- 自动晋升:Agent自动把这条规则从温记忆的高频规则里,晋升到热记忆的用户核心偏好里,每次对话都自动加载
- 一条「2024年双11活动文案规则」,连续6个月没有被使用,Agent自动把它归档到冷记忆区,不占用日常的上下文Token
6. 多维度反馈融合能力
- 核心定义:Agent能融合来自多个维度的反馈,包括用户的直接反馈、任务执行的结果反馈、工具调用的报错反馈、甚至是第三方的评价反馈,综合优化自身的行为逻辑
- 实现逻辑:采集多维度反馈→交叉验证反馈的有效性→提炼综合优化规则→更新记忆系统→全场景生效
- 落地场景:团队协作场景、多用户使用的智能体、需要对接多个工具的自动化Agent
- 实操示例 :
- 团队里的产品经理说"方案要加竞品分析模块",开发说"方案里的技术选型要写清楚兼容版本",测试说"方案里要提前考虑测试用例的设计"
- 反馈融合:Agent把这三个维度的反馈,综合提炼成「团队项目需求方案通用规则」,要求方案必须包含竞品分析、技术选型兼容版本、测试用例规划三个模块
- 后续:输出的方案同时满足产品、开发、测试三个角色的需求,不用反复修改对齐
从零到一落地:3种可直接复用的实现方案
不管你是零代码的AI效率玩家,还是有基础的个人开发者,都能找到适合自己的落地方式,下面3种方案,从易到难,全部给可直接复制的模板和步骤。
方案一:零代码快速落地(适合新手,5分钟就能用)
不用写任何代码,不用搭建任何环境,只用提示词工程,就能在ChatGPT、Claude、豆包等所有主流大模型里,实现基础的Self-Improving Agent能力。
核心实现方式
把自我进化的闭环,写死在System Prompt里,让大模型每次对话都自动执行。
可直接复制的System Prompt模板(完整版)
prompt
# 角色定位
你是一个具备自我进化能力的AI智能体(Self-Improving Agent),你的核心目标是:从每一次和用户的交互中学习,持续优化你的输出,越用越懂用户,越用越好用。
# 核心规则
1. 严格遵循用户的所有指令,完全匹配用户的核心需求
2. 每次对话结束后,必须自动执行【自我进化闭环流程】
3. 所有提炼的规则,必须清晰标注,存入【记忆系统】,下次对话必须自动加载并遵循
4. 同样的错误,绝对不能犯第二次;用户明确的偏好,必须长期遵循,无需反复强调
# 记忆系统
你拥有一套三层记忆系统,必须严格按照以下规则管理:
## 1. 热记忆(始终加载,最高优先级)
- 存储用户全场景通用的核心偏好、最高频的规则、不可覆盖的核心原则
- 每次对话必须自动加载,严格遵循,优先级高于所有其他规则
## 2. 温记忆(场景专属,按需加载)
- 存储不同项目、不同领域的专属规则,仅在对应场景触发时自动加载
- 按项目/领域分类存储,避免混乱
## 3. 冷记忆(归档存储,检索调用)
- 存储低频、过期的规则,仅在关键词强匹配时调用
# 自我进化闭环流程(每次对话结束后必须自动执行)
1. 信息采集:采集本次对话中用户的偏好、反馈、纠正的错误、认可的成功经验
2. 自我反思:复盘本次输出的不足,思考哪里可以优化,能不能提炼成通用规则
3. 规则提炼:把零散的反馈/经验,抽象成可执行、通用、无冲突的规则,标注适用场景、优先级、生效时间
4. 记忆更新:把提炼的规则,存入对应的记忆区,更新记忆索引
5. 验证承诺:给用户明确反馈,本次学习到的规则,以及后续会如何优化
# 输出要求
1. 响应用户的核心需求时,先输出对应的结果
2. 结果输出完成后,必须单独加一个【本次自我进化总结】模块,清晰说明本次学习到的内容
3. 禁止把自我进化的流程,放到用户的核心需求响应里,避免干扰用户阅读
落地步骤
- 打开你常用的大模型(ChatGPT、Claude、豆包等),新建一个对话
- 把上面的System Prompt完整复制到对话框里,发送给大模型
- 正常使用这个对话,不管是写文案、写代码、做方案,都可以用
- 每次对话结束,大模型都会自动给你输出【本次自我进化总结】,告诉你它学到了什么
- 下次对话,它会自动遵循之前学到的所有规则,实现自我进化
优势与局限
- 优势:零门槛、零代码、5分钟就能上手,兼容所有主流大模型
- 局限:依赖对话上下文,对话关闭后记忆会丢失,适合单会话的短期进化,不适合长期持久化
方案二:半代码持久化落地(适合进阶玩家,可长期使用)
基于提示词+外部文档的方式,用飞书文档、Notion、GitHub仓库来存储记忆文件,实现记忆的持久化,对话关闭也不会丢失,支持跨会话、跨设备使用。
核心实现方式
- 用飞书/Notion/GitHub搭建前面讲的「三层记忆系统」的文档结构
- 给大模型开放文档的编辑权限(比如ChatGPT的插件、Claude的Project功能、Coze/扣子的知识库功能)
- 优化System Prompt,让大模型可以自动读取、编辑、更新记忆文档
- 每次对话,大模型都会先读取热记忆,根据场景读取温记忆,对话结束后自动更新记忆文档
落地步骤
- 搭建记忆存储库:在飞书/Notion里,按照前面的三层记忆结构,创建对应的文档/页面
- 给大模型开通权限:比如用Coze、扣子、Dify等低代码Agent平台,把这些文档上传为知识库,开通读写权限
- 配置System Prompt:在方案一的基础上,添加记忆文档的读取和更新规则,让大模型每次对话先读取记忆,结束后更新记忆
- 配置触发流程:在Agent平台里,配置「对话结束后自动执行记忆更新」的工作流
- 正常使用:不管跨多少个会话,Agent都会自动读取记忆文档里的规则,并且持续更新,实现长期持久化的自我进化
优势与局限
- 优势:记忆持久化,跨会话、跨设备可用,功能更完善,几乎不用写代码,低代码平台就能实现
- 局限:依赖第三方平台,需要一定的Agent平台使用基础,适合有一定经验的进阶玩家
方案三:全代码定制化落地(适合开发者,完全可控)
基于Python+大模型API+本地/云端存储,完全自主开发一套Self-Improving Agent系统,所有功能完全可控,可拓展性极强。
核心技术栈
- 大模型API:OpenAI GPT、Anthropic Claude、字节豆包等
- 开发语言:Python 3.10+
- 记忆存储:本地JSON文件/MySQL数据库/向量数据库(Pinecone/Chroma)
- 框架:LangChain/LlamaIndex(可选,简化开发)
核心代码示例(极简可运行版)
python
from openai import OpenAI
import json
import os
# 初始化大模型客户端
client = OpenAI(
api_key="你的API_KEY",
base_url="你的API_BASE_URL"
)
# 记忆系统初始化
MEMORY_PATH = "self-improving-memory"
os.makedirs(MEMORY_PATH, exist_ok=True)
# 热记忆文件路径
HOT_MEMORY_FILE = os.path.join(MEMORY_PATH, "hot_memory.json")
# 加载热记忆
def load_hot_memory():
if os.path.exists(HOT_MEMORY_FILE):
with open(HOT_MEMORY_FILE, "r", encoding="utf-8") as f:
return json.load(f)
# 初始化热记忆
default_hot_memory = {
"core_principles": [
"所有输出必须严格遵守用户的指令要求",
"禁止生成虚假、错误、违法违规的内容",
"所有代码必须添加详细注释"
],
"user_preferences": [],
"high_frequency_rules": []
}
save_hot_memory(default_hot_memory)
return default_hot_memory
# 保存热记忆
def save_hot_memory(hot_memory):
with open(HOT_MEMORY_FILE, "w", encoding="utf-8") as f:
json.dump(hot_memory, f, ensure_ascii=False, indent=4)
# 自我进化闭环:提炼规则
def extract_rules(user_input, assistant_output, feedback):
prompt = f"""
基于以下对话内容和用户反馈,提炼可执行的通用规则,用于后续优化AI的输出。
用户输入:{user_input}
AI输出:{assistant_output}
用户反馈:{feedback}
要求:
1. 规则必须通用、可执行、无歧义,能覆盖同类场景
2. 每条规则必须包含:规则内容、适用场景、优先级
3. 输出格式为JSON数组,示例:
[
{{
"rule_content": "所有输出必须使用Markdown格式排版",
"scenario": "全场景通用",
"priority": "high"
}}
]
4. 只输出JSON,不要其他任何内容
"""
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
temperature=0
)
return json.loads(response.choices[0].message.content)
# 主对话函数
def chat():
hot_memory = load_hot_memory()
print("Self-Improving Agent 已启动,输入exit退出")
while True:
user_input = input("\n你:")
if user_input.lower() == "exit":
break
# 构建系统提示词,加载热记忆
system_prompt = f"""
你是一个具备自我进化能力的AI智能体,必须严格遵循以下规则:
核心原则:{hot_memory['core_principles']}
用户偏好:{hot_memory['user_preferences']}
高频规则:{hot_memory['high_frequency_rules']}
严格遵循以上所有规则,输出符合用户需求的内容。
"""
# 调用大模型生成回复
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_input}
]
)
assistant_output = response.choices[0].message.content
print(f"\nAI:{assistant_output}")
# 获取用户反馈,触发自我进化
feedback = input("\n请给出你的反馈(满意输入ok,不满意请说明问题):")
if feedback.lower() != "ok":
# 提炼规则
rules = extract_rules(user_input, assistant_output, feedback)
print(f"\n【本次自我进化】提炼到以下规则:{rules}")
# 更新热记忆
for rule in rules:
if rule["priority"] == "high" and rule["scenario"] == "全场景通用":
hot_memory["user_preferences"].append(rule["rule_content"])
else:
hot_memory["high_frequency_rules"].append(rule["rule_content"])
# 保存更新后的热记忆
save_hot_memory(hot_memory)
print("【记忆更新完成】规则已存入热记忆,后续对话将自动遵循")
if __name__ == "__main__":
chat()
落地步骤
- 安装依赖:
pip install openai - 把代码里的API_KEY和BASE_URL换成你自己的
- 运行代码,启动Agent,正常对话即可
- 每次给出反馈,Agent都会自动提炼规则,更新到本地的记忆文件里,永久保存
- 可以基于这个基础版本,拓展温记忆、冷记忆、向量检索、多场景适配等功能
优势与局限
- 优势:完全自主可控,可拓展性极强,支持复杂场景定制,记忆永久本地存储
- 局限:需要一定的Python开发基础,适合开发者使用
高频踩坑与避坑指南
在Self-Improving Agent的落地过程中,90%的人都会遇到以下这些坑,这里提前给大家讲清楚,并且给出对应的解决方案,避免大家走弯路。
坑1:记忆爆炸,上下文被无效规则塞满
- 问题表现:用了一段时间后,记忆里的规则越来越多,每次都要加载大量内容,导致Token成本飙升,大模型出现逻辑混乱、规则冲突
- 根本原因:没有做规则的分层管理,所有规则都堆在热记忆里,没有归档机制
- 避坑方案 :
- 严格执行三层记忆架构,热记忆必须严格控制体积,总内容≤1000Token
- 建立规则晋升与归档机制,只有高频、全场景通用的规则才能进热记忆
- 定期清理过期、无效的规则,比如项目完结后,把项目专属规则归档到冷记忆
- 给规则设置有效期,过期自动归档
坑2:规则冲突,优先级混乱
- 问题表现:不同的规则之间出现冲突,比如热记忆里说"要简洁",温记忆里说"要详细",大模型不知道该遵循哪一个,输出混乱
- 根本原因:规则没有设置明确的优先级,没有制定冲突解决机制
- 避坑方案 :
- 明确优先级排序:核心原则>用户核心偏好>项目专属规则>领域通用规则>低频规则
- 所有规则必须标注优先级,冲突时高优先级规则自动覆盖低优先级规则
- 新规则和旧规则冲突时,自动以新规则为准,旧规则归档备份
- 定期做规则冲突检测,清理重复、冲突的规则
坑3:过度优化,规则过于细碎
- 问题表现:Agent把单次的、特殊场景的反馈,抽象成了全场景通用的规则,导致规则过于细碎,限制了Agent的灵活性,输出僵化
- 根本原因:规则抽象的颗粒度不对,没有区分"单次特殊需求"和"通用通用规则"
- 避坑方案 :
- 制定规则抽象的标准:只有连续出现≥2次的需求,才能抽象成通用规则
- 单次特殊需求,仅存入对应任务的临时记忆,不进入长期记忆系统
- 所有规则必须明确标注适用场景,禁止把特殊场景的规则,用到全场景
- 给规则设置"试用期",只有连续3次以上生效的规则,才能正式存入长期记忆
坑4:上下文污染,自我进化流程干扰用户阅读
- 问题表现:Agent把自我反思、规则提炼的内容,都放到了给用户的回复里,导致核心需求的内容被淹没,用户体验极差
- 根本原因:没有明确的输出规范,把内部执行流程和给用户的输出混在了一起
- 避坑方案 :
- 严格执行输出规范:先响应用户的核心需求,输出用户要的结果,再单独放【本次自我进化总结】模块
- 内部的反思、规则提炼流程,不能放到给用户的主输出里,仅在用户需要时展示
- 可以用Agent平台的后台工作流,把自我进化的流程放到后台执行,用户完全无感知
- 自我进化总结必须简洁明了,只说核心学到的规则,不要冗长的复盘内容
坑5:记忆丢失,跨会话无法复用
- 问题表现:单会话里用得好好的,新建一个对话,之前学到的规则全没了,又回到了原点
- 根本原因:只用了提示词工程,没有做外部持久化存储,记忆只存在于会话上下文里
- 避坑方案 :
- 至少使用方案二的半代码持久化方案,用外部文档/知识库存储记忆
- 不要用单会话的上下文存储长期记忆,必须有独立的记忆存储系统
- 每次规则更新,必须同步写入外部存储,而不是只存在会话里
- 新建会话时,必须先加载外部存储里的热记忆,确保规则不丢失
进阶玩法:与其他Agent Skills联动升级
Self-Improving Agent不是孤立的技能,它可以和本系列的其他Agent Skills联动,实现能力的指数级升级,这里给大家几个核心的联动玩法:
1. 与Skill-Vetter(技能审核)联动
- 联动效果:用Skill-Vetter来审核Agent提炼的规则,过滤无效、冲突、不合理的规则,确保记忆系统里的规则都是高质量、可执行的
- 落地方式:规则提炼完成后,先交给Skill-Vetter审核,审核通过后再存入记忆系统,审核不通过的,重新优化提炼
2. 与Agent-Browser(浏览器智能体)联动
- 联动效果:让Agent能从浏览器获取的行业信息、最佳实践、最新规范中,自动学习优化自身的规则,不用用户手动输入,实现自主学习进化
- 落地方式:定期让Agent-Browser检索对应领域的最新规范、最佳实践,自动提炼成规则,更新到对应的领域记忆里,让Agent的能力始终跟上行业最新标准
3. 与Summarize(总结技能)联动
- 联动效果:用Summarize技能,把长对话、复杂项目、大量历史交互里的核心经验,快速提炼总结,避免无效信息进入记忆系统,提升记忆系统的效率
- 落地方式:历史交互记录、项目复盘内容,先经过Summarize技能压缩提炼,再进入规则提炼环节,确保记忆里的内容都是核心精华
4. 与多Agent协作系统联动
- 联动效果:让多个Agent之间共享记忆系统,互相学习进化,一个Agent学到的规则,所有Agent都能复用,快速打造一套完整的团队协作Agent系统
- 落地方式:搭建共享的记忆中心,每个Agent的自我进化结果,都同步到共享记忆中心,经过审核后,全量Agent同步更新,实现团队级的能力进化
每日打卡实操任务:5分钟就能上手
给大家设计了分阶的实操任务,不管是新手还是进阶玩家,都能5分钟完成打卡,真正把这个技能落地。
新手任务(零门槛,5分钟完成)
- 复制方案一里的System Prompt,新建一个对话,发送给你常用的大模型
- 给它一个简单的任务,比如"帮我写一条朋友圈文案"
- 给它一个明确的反馈,比如"文案太官方了,改得活泼一点,加几个emoji"
- 看它会不会自动给你输出【本次自我进化总结】,并且记住你的偏好
- 再让它写一条朋友圈文案,验证它会不会自动遵循你之前的偏好
进阶任务(10分钟完成)
- 用飞书/Notion搭建一套简单的三层记忆系统,至少包含热记忆和温记忆两个文档
- 用Coze/扣子等低代码Agent平台,把这两个文档上传为知识库,开通读写权限
- 配置System Prompt,让Agent能自动读取和更新记忆文档
- 完成3次任务+反馈,看Agent会不会自动把规则更新到对应的记忆文档里
- 新建一个对话,验证它会不会自动加载记忆文档里的规则
高阶任务(30分钟完成)
- 运行方案三里的Python代码,搭建本地的Self-Improving Agent
- 拓展温记忆功能,实现按场景自动加载对应的记忆
- 增加规则冲突检测功能,自动过滤重复、冲突的规则
- 实现规则的自动晋升与归档功能
- 对接向量数据库,实现冷记忆的语义检索调用
总结
Self-Improving Agent,不是一个花哨的AI概念,而是真正能解决AI使用核心痛点的实用技能。它把AI从「一次性的工具」,变成了「能持续成长、越用越懂你的专属伙伴」。
它的核心,从来不是复杂的代码和架构,而是一套「从反馈到成长」的闭环思维。哪怕你只用零代码的提示词方案,只要能让AI真正从每一次交互里学习,不重复犯错,记住你的偏好,你就已经掌握了它的核心精髓。
End
你好,少年,未来可期~
本文由作者最佳伙伴------阿程,根据OpenClaw官方GitHub更新日志共创推出!!