AI Agent 的自进化实践

Agent 自进化实践

背景

重复的提问

为了避免 AI 不思考直接就进行内容的生成,我加了一条 rule 每次指令若存在歧义,你先列出所有可能性并由我确认,再开始执行

但是加完后,AI 在每个指令基本都会对我进行询问,有的甚至多的 3-4 条,虽然内容是更加符合方向了,但是很多选项基本都固定的,是按预期来的,反而变成了多余的步骤。

重复的错误

问题 表现 代价
决策偏好不一致 AI 推荐你不会选的方案、反复踩同一个坑 纠正成本累积,信任下降
错误不收敛 同一类错误(如漏注释、过度工程化)在不同会话中反复出现 无法形成肌肉记忆,永远在「调教」

思考

有时为了解决这些重复出现的问题,尝试过下面几种,但是都大多美而不足

  • Rules + Agents 添加规则去约束
    • 优点:强约束,加在 system prompt 里基本都会遵守。
    • 缺点: 静态的,每次都要自己去整理
  • 每次口头纠正
    • 缺点:不可复用,换个会话又要重来
  • 通用 AI 规则
    • 缺点:纯自嗨,太泛了缺乏准确性,基本无用

尝试了一圈后,发现单纯靠 "人工编写 Rules" 已经不太能跟得上时代了,后面也了解到一些自进化的概念,我顿时眼前一亮,我发现可能这才是我最需要的东西。

个人风格决策系统的构建

这套系统本质上是在解决一个问题:

通过分析与 AI 的所有对话历史,总结出自己的决策风格,并建立一套策略规则,进行预测、学习, 让无状态的 LLM 表现得像一个跟你合作了半年的初级工程师------知道你的风格、预测你的选择、从错误中学习。

两层架构:画像层 + 校准层

复制代码
┌─────────────────────────────────────────┐
│         decision-profile.md             │  ← 画像层:稳定的个人规范
│  身份边界 · 决策规则 · 摩擦点 · 沟通协议  │     (人工编写,低频更新)
└────────────────┬────────────────────────┘
                 │ 引用
┌────────────────▼────────────────────────┐
│       decision-calibration.md           │  ← 校准层:可进化的算法
│  因子模型 · 权重矩阵 · 调整算法 · 毕业规则 │     (数据驱动,自动更新)
└────────────────┬────────────────────────┘
                 │ 写入/读取
┌────────────────▼────────────────────────┐
│         decision-log.yaml               │  ← 数据层:原始决策记录
│  每次决策的 predicted vs actual          │     (自动追加,只增不删)
└─────────────────────────────────────────┘

核心 Rules 模板

AI 会根据你的全部历史对话,总结出你当前个人的一些风格,进行初始模版的填充。

md 复制代码
# 决策画像:个人风格规范

> 数据来源:全部的 AI 历史对话 + 决策 log
> 版本:v1.8 · 2026-04-10

---

## 1. 身份与边界

**角色**:MoeGo 全栈 Tech Lead --- React/TS、Java/Go、AI Agent 基建(TS/Python)。

**AI 定位**:初级工程师------给明确指令、review 产出、纠正错误。AI 不做方向性决策。

**绝对禁止**:
- xxx

---

## 2. 决策规则

### 阶段判断 → 决策策略

| 阶段 | 触发条件 | 策略 |
|------|---------|------|
| **探索期** | scope 不清楚、首轮尝试 |  xxx |
| **执行期** | scope 已确认 | xxx |
| **修复期** | bug、线上问题 | xxx |
| **评审期** | 估时、架构讨论 | xxx |

### 选项呈现规则

- 方案间差异明显 → xxx
- 方案间差异不大 → xxx
- 任何方案涉及数据风险 → xxx

---

## 3. 反复出现的摩擦点(AI 必须主动规避)

| 问题 | 应对规则 |
|------|---------|
| AI 不加注释或注释不够 | xxx |
| AI 误解需求范围 | xxx|
| AI 对业务数据做错误假设 | xxx |
| AI 过度搜索不及时放弃 | 搜索超过 5 次未命中 → 停下来问用户 |
| AI 写测试而非实现 | 除非明确要求 TDD,否则先写实现,按需补测试 |
| AI 过度提问打断流程 | 方向确定后,同类决策自行判断,不再逐一确认 |

---

## 4. 沟通协议

**用户侧**:
- 中文为主,技术术语用英文
- `xxx`

**AI 侧**:
- 回复长度匹配用户输入量级;用户一句话 → 不超过 3 段
- 所有代码改动必须附带注释
- xxx

---

## 5. 自进化

决策日志路径:`~/.agents/logs/decision-log.yaml`

| 触发条件 | 动作 |
|---------|------|
| 累计 10 条日志 | 统计 match rate;< 80% 时提出调整建议 |
| 累计 3 次同类错误 | 新增到「摩擦点」表 |
| 用户主动纠正 | 直接覆盖,标记 `user_override` |

详细校准算法和因子发现流程见 `~/.agents/docs/decision-calibration.md`。

---

## 6. 快速参考卡

```
scope 不清楚?     → 选最小方案
scope 已确认?     → 选闭环方案,一次做完
```

自进化的核心

将一开始的 rule

每次指令若存在歧义,你先列出所有可能性并由我确认,再开始执行

改为下面的 rule

md 复制代码
## 歧义消解
用户指令存在歧义 → 列出所有合理解读 → 依据 `~/.agents/rules/decision-profile.md` §2 决策规则自主判断 → 判断不了时让用户选择 → 再行动。
不要跳过歧义识别步骤直接执行。
## 决策日志(自进化)
路径:`~/.agents/logs/decision-log.yaml`
| 触发时机 | 动作 |
|---------|------|
| 任务开始 | 检查 `decision-profile.md` §5 自进化触发条件,符合则询问用户是否执行更新 |
| AI 提供选项 + 用户选择后 | 追加日志 |
| AI 自主决策 + 用户反馈后 | 追加日志,标记 `ai_autonomous: true` |
| 用户主动要求记录 | 追加日志,标记 `user_requested: true` |

一些使用的例子:

  • 已经能根据我的偏好替我做决策了,同时尽量对 AI 的决策给一些反馈,促进它的"进化"。

参考文件

决策因子与日志
md 复制代码
# 决策校准:因子模型与自进化算法

> 引用自 `~/.agents/rules/decision-profile.md` §5
> 仅在 match rate < 80% 或需要权重调整时查阅本文档

---

## 1. 核心决策因子(6 维度)

| 因子 | 代号 | 定义 | 权重范围 |
|------|------|------|---------|
| 最小性 | `F_min` | 方案的实施范围有多小 | 0.10 -- 0.35 |
| 闭环度 | `F_close` | 方案能否独立闭环、不留半成品 | 0.15 -- 0.35 |
| 数据安全 | `F_data` | 方案是否保护数据正确性 | 0.20 -- 0.30(始终高权重) |
| 交付速度 | `F_speed` | 方案的落地时间 | 0.10 -- 0.20 |
| 认知负担 | `F_cogn` | 需要用户额外理解/验证的成本 | 0.05 -- 0.15 |
| 可逆性 | `F_rev` | 方案出错后回滚的难度 | 0.05 -- 0.15 |

## 2. 置信度公式

```
Confidence(option) = Σ (w_i × F_i(option))    i ∈ {min, close, data, speed, cogn, rev}
```

### 阶段权重矩阵

| 阶段 | w_min | w_close | w_data | w_speed | w_cogn | w_rev |
|------|-------|---------|--------|---------|--------|-------|
| 探索期 | **0.35** | 0.10 | 0.25 | 0.15 | 0.10 | 0.05 |
| 执行期 | 0.10 | **0.35** | 0.25 | 0.15 | 0.10 | 0.05 |
| 修复期 | 0.10 | 0.15 | **0.30** | 0.20 | 0.10 | 0.15 |
| 评审期 | 0.20 | 0.25 | 0.20 | 0.10 | **0.15** | 0.10 |

### 因子评分规则

```
F_min:   1 = 改动最小   0.5 = 中等范围   0 = 大范围重构
F_close: 1 = 完全闭环   0.5 = 部分闭环   0 = 留尾巴
F_data:  1 = 数据不可能出错   0.5 = 有风险但可控   0 = 可能提交错误数据
F_speed: 1 = 当天可交   0.5 = 1-3 天   0 = 超过一周
F_cogn:  1 = 无需额外理解   0.5 = 需看文档   0 = 需深入研究
F_rev:   1 = 一键回滚   0.5 = 可手动回退   0 = 不可逆
```

---

## 3. 权重调整算法

```
对于每个决策因子 w_i:

1. 收集最近 N 条决策日志中 predicted ≠ actual 的记录
2. 对每条不匹配记录:
   - delta_i = F_i(actual) - F_i(predicted)
3. 新权重 = 旧权重 + learning_rate × mean(delta_i)
4. 归一化:确保所有权重之和 = 1.0
5. 钳位:确保每个权重在定义的 [min, max] 范围内

learning_rate = 0.1(保守更新,防止单次极端案例主导)
```

---

## 4. 新因子发现流程

```
if 连续 5 次预测失败 AND 现有因子无法解释差异:
    1. 提取失败案例的共性
    2. 假设一个新因子(名称 + 定义 + 评分规则)
    3. 用历史数据回测:新因子加入后 match rate 是否提升 > 5%
    4. 是 → 正式加入因子表,初始权重 = 0.10,从其他因子按比例扣减
    5. 否 → 丢弃假设,记录为"已排除因子"
```

---

## 5. 模式毕业规则

当一个决策模式被验证 20+ 次且 match rate > 90%:
- 标记为 `✅ 已毕业`,直接按模式执行,不再计算公式
- 连续 3 次预测失败时重新进入校准

---

## 6. 决策日志格式

```yaml
- timestamp: "2026-04-09T10:30:00"
  context: "估时方案选择"
  phase: "探索期"
  options:
    - id: 1
      desc: "最小闭环"
      predicted_confidence: 0.82
    - id: 2
      desc: "展示+交互"
      predicted_confidence: 0.61
  predicted_choice: 1
  actual_choice: 1
  match: true
  notes: ""
```

日志路径:`~/.agents/logs/decision-log.yaml`
md 复制代码
# 决策日志
# 格式:每次 AI 提供选项且用户做出选择后追加一条记录
# 用于权重校准和模式发现
# 路径:~/.agents/logs/decision-log.yaml
# ── 示例条目 ──
# - timestamp: "2026-04-09T10:30:00"
#   context: "估时方案选择"
#   phase: "探索期"        # 探索期 | 执行期 | 修复期 | 评审期
#   options:
#     - id: 1
#       desc: "最小闭环"
#       predicted_confidence: 0.82
#     - id: 2
#       desc: "展示+交互"
#       predicted_confidence: 0.61
#   predicted_choice: 1
#   actual_choice: 1
#   match: true
#   delta: 0
#   notes: ""
相关推荐
用户5191495848452 小时前
RenderTune RCE 漏洞利用演示 - XSS到远程代码执行
人工智能·aigc
佳木逢钺2 小时前
太宗多维评估模型:用50个变量数学建模唐太宗,探索历史与AI的跨界融合
人工智能·数学建模
GIS数据转换器2 小时前
车辆监控管理系统
人工智能·3d·无人机·知识图谱·旅游
呆码科技2 小时前
数据驱动决策:商贸物流软件的数据分析与预测功能
大数据·人工智能
低空闲话与AI杂谈2 小时前
OpenClaw 多飞书机器人完整配置教程(Docker 部署版)
人工智能
xcbrand2 小时前
专精特新品牌全案公司有哪些
大数据·人工智能·python
波动几何2 小时前
五层能力架构全景
人工智能
攻城狮7号2 小时前
面向未来的时序数据库选型指南:当数据存储遇上原生AI
数据库·人工智能·时序数据库·apache iotdb
小白狮ww2 小时前
3 秒出全纹理!TRELLIS.2 实现单图生成高分辨率 3D 资产
图像处理·人工智能·3d·语言模型·微软·开源·3d内容生成