【Harness:核心原理】7、反馈层(Feedback):给 AI 装上“后视镜”,越用越聪明的核心秘密

【Harness 组件拆解 03】反馈层(Feedback):给 AI 装上"后视镜",越用越聪明的核心秘密

关键词 :反馈层、Feedback Layer、AI 自我进化、自动反馈、人工反馈、闭环学习、Hermes 学习循环、DBNT 协议、Agent-in-the-Loop
字数 :约 9500 字 | 阅读时长 :20 分钟
适用人群:AI 架构师、MLOps 工程师、Prompt 工程师、AI 产品经理

📌 引言:为什么有的 AI 越用越笨,有的却越来越聪明?

你有没有遇到过这样的 AI:

  • 你纠正了它三次同一个错误,第四次它依然犯错。
  • 你点赞了它的一次精彩回答,但下次遇到类似问题,它又回到了平庸模式。
  • 你退出了对话,再回来时,它完全忘记了之前"学会"的一切------就像《记忆碎片》里的主角,每天醒来都是全新的一天。

这就是大多数 AI Agent 的现实:它们没有记忆,更没有从经验中学习的能力。每次对话都是一张白纸,每次错误都得重新纠正。

但有一小部分 AI 不同。它们会在你指出错误后迅速调整,会在成功经验中提炼模式,会随着使用次数的增加而变得越来越懂你。这种"越用越好"的超能力,靠的不仅仅是底层的大模型------模型本身是冻结的、静态的。

秘密在于 Harness 的第五大组件:反馈层(Feedback Layer)。

在 Harness 理论中,反馈层是让整个智能体系统"活起来"的关键。如果说指令层是"方向盘",记忆层是"硬盘",那么反馈层就是 AI 的"后视镜"和"学习教练"------它不断审视 Agent 已经做过的事情,分析哪些做对了、哪些做错了,然后把经验沉淀下来,让下一次做得更好。

本文将全面拆解 Harness 反馈层:

  • 什么是反馈层?它解决什么问题?
  • 自动反馈 vs 人工反馈,各自适用什么场景?
  • 反馈数据应该长什么样?
  • 如何构建完整的反馈闭环?
  • 核心实战:结合 Hermes 学习循环,让 AI 自动根据反馈优化行为。

📑 本文目录

  1. 反馈层:让 AI 与 Harness 越用越好的核心,构建闭环优化机制
  2. 反馈机制:正向强化 + 负向修正,覆盖自动反馈与人工反馈
  3. 自动反馈 vs 人工反馈:适用场景与实现方式
  4. 反馈数据结构设计:评分、原因、优化建议,便于 AI 解析与应用
  5. 反馈闭环流程:执行 → 评价 → 修正 → 存储 → 复用
  6. 实战:让 AI 自动根据反馈优化行为(结合 Hermes 学习循环)
  7. 总结 + 实践 Checklist

1. 反馈层:让 AI 越用越好的核心引擎

1.1 什么是反馈层?为什么它是 Harness 的灵魂?

在 AI 智能体系统中,"反馈层"是指一个专门负责收集、解析、存储和利用执行反馈的系统组件。它的核心职责是:让 Agent 从每一次交互中学习,并在未来的交互中表现得更好。

如果说 Harness 的其他组件(指令层、记忆层、规划层、工具层)是在"执行任务",那么反馈层就是在 "研究如何把任务执行得更好" 。前者是"做事",后者是"学习如何做事"------两者结合,才构成了一个完整的智能体。
Harness 反馈层
Harness 执行层
经验沉淀
规则强化
技能模板
指令层

定义任务
记忆层

提供背景
规划层

拆解步骤
工具层

调用资源
安全层

守住底线
收集

反馈信号
分析

归因定位
学习

规则提炼
优化

策略更新

反馈层之所以是 Harness 的灵魂,原因有三:

  1. 它让 Agent 突破静态能力的限制:无论大模型有多强,它的知识截止于训练数据。而反馈层让 Agent 可以从"实时交互"中持续获取新知识。

  2. 它让错误变成财富:传统 Agent 遇到错误就崩溃;有了反馈层,每一次失败都成为未来成功的垫脚石。

  3. 它是 AI 从"工具"升级为"伙伴"的关键:一个不会学习的 AI 只是工具;一个越用越懂你的 AI,才是伙伴。

1.2 没有反馈层的 Agent:一个"前馈式"悲剧

大多数"裸模型 + System Prompt"的 Agent 采用的是前馈式(Feed-Forward)架构:输入 → 处理 → 输出。输出之后,一切都结束了。

这种架构的问题在于,每一次调用都独立存在:
问题
❌ 模型不知道上轮哪里错了
❌ 用户纠正的信息被遗忘
❌ 成功经验无法复用
❌ 错误在同一会话中重复
传统前馈式
结束
结束
用户消息
大模型
输出
END
下一次用户消息
大模型
输出

具体表现:你在第一轮中告诉 AI "我不喜欢用'尊敬的客户'开头",它记住了。第二轮对话开始,它又忘记了。

反馈层架构则完全不同:
收益
✅ 错误只犯一次
✅ 用户偏好持续生效
✅ 成功模式被复用
✅ 系统持续进化
Harness 反馈式
下次调用前加载
用户消息
Agent 执行
输出
反馈收集
反馈分析
经验存储

1.3 反馈层在 Harness 中的位置:最后一步,也是第一步

反馈层虽然位于执行流程的"末端"(输出之后),但它却是整个系统进化的 "起点" 。一次执行产生的反馈,会成为下一次执行的输入。

理解这一点至关重要:反馈层不是"事后处理",而是"事先准备"。它把过去(历史数据)转化为未来(优化策略),让 Agent 像有机生命一样,拥有"记忆+经验+进化"的完整能力。

学术研究也将这种机制概括为统一概念框架,其中反馈循环贯穿系统输入、智能体、环境和优化器四个关键组件。闭环框架(如 EvolveR)通过离线自我蒸馏与在线交互两个阶段,使 Agent 不仅能从外部数据学习,更能从自身行动后果中持续改进。

2. 反馈机制:正向强化 + 负向修正

反馈层收集的反馈可以分为两大类:正向强化负向修正。两者缺一不可。

2.1 正向强化:告诉 AI "这样做是对的"

正向强化记录的是 AI 做对的事情,让好行为可以被复用。

类型 含义 示例场景
用户点赞/好评 用户明确表示满意 聊天界面点击 👍
任务成功完成 Agent 达成了所有子目标 成功查询订单并返回
工具调用正确 Agent 选择了正确的函数并传入了正确的参数 调用 refund 时参数完整
人工确认采用 人工客服采用了 Agent 的草稿回复 客服直接发送 Agent 生成的回复

为什么要特别重视正向强化? 正如 DBNT(Do Better Next Time)协议的作者所言:完成任务的方式有很多种,但成功的方式往往只有少数几种。一个成功信号的信息密度远高于一个失败信号------因为一条成功路径从无数条可能路径中被筛选出来,本身就携带着高价值信息。

2.2 负向修正:告诉 AI "这样做错了,正确的方式是......"

负向修正记录的是 AI 做错的事情,并给出正确的方向。

类型 含义 示例场景
用户点踩/差评 用户明确表示不满意 回复不相关或错误
任务执行失败 Agent 无法完成子目标 API 调用返回 403
输出格式错误 模型输出了不符合规范的格式 输出了自然语言而非 JSON
边界违反 模型触发了安全规则 尝试访问未授权数据
用户修正 用户直接修改了 Agent 的输出 用户手动改了摘要的关键点

2.3 两种反馈的协同工作

正向强化和负向修正不是孤立的,而是需要协同工作:
学习效果
反馈类型
👍 正向强化

做什么可以
👎 负向修正

不能做什么
🔁 复用成功模式
⛔ 避免已知错误
✅ Agent 持续进化

一个关键洞察:传统的反馈系统过度关注"错误",而忽视了"成功"。DBNT 协议为此设计了差异化权重机制:成功信号携带 1.5 倍的权重,因为一条成功路径的价值远高于一条失败路径------失败只是告诉 Agent "有一条路不能走",而成功告诉它 "这条路是可以走的"。同时,DBNT 引入了基于 FSRS-6 间隔重复算法的衰减引擎------高频应用的规则不断强化,长期未使用的规则自动归档至知识库边缘,避免经验库的"无效臃肿"。

3. 自动反馈 vs 人工反馈:适用场景与实现方式

根据反馈来源的不同,可以将其分为两大类:自动反馈人工反馈

3.1 自动反馈:让系统自己给自己打分

自动反馈是指不需要人工介入,由系统通过规则、模型或环境结果自动生成的反馈。

常见场景

场景 自动反馈信号 实现方式
API 调用 返回码(200/404/500) 捕获异常并记录
格式校验 JSON Schema 验证失败 输出后自动校验
任务完成检查 是否达成预设目标 规划层完成标志
自我反思 模型对自己输出的批评 Self-Reflect 机制

Self-Reflect(自我反思)示例

Self-Reflect 是 AI Agent 纠错的核心策略之一------Agent 在执行前或失败后强制进行一次"自检推理"。典型流程为:模型生成初稿 → 对自己输出进行结构化批评 → 根据批评进行修订。这种 draft-critique-revise 循环类似于人类编辑的工作流。

3.2 人工反馈:用户的每一次点击都是宝贵的训练数据

人工反馈是指由真实用户提供的反馈信号。它比自动反馈更"昂贵",但往往也更有价值,因为人类反馈包含了自动规则无法捕捉的细微偏好。

常见形式

形式 交互成本 信息密度 典型场景
点赞/点踩 极低 对话界面,快速反馈
用户修正 中等 用户直接编辑 Agent 输出
人工采纳 中等 客服采用 Agent 草稿
多选评分 中低 1-5 星评分
文本原因 极高 "这个回复不够专业"

Agent-in-the-Loop(AITL)框架给出了一个值得借鉴的实践方案:将人工反馈直接嵌入运营工作流,集成四种关键类型的标注------配对的回复偏好、人工采纳及理由、知识相关性检查、以及缺失知识识别------将模型重训周期从数月缩短至数周。

3.3 自动反馈 vs 人工反馈:何时用哪个?







问题:反馈来源选择
能否规则化?
✅ 自动反馈

格式校验、API 状态、时间
需要人类知识?
👤 人工反馈

语气偏好、业务规则、创意评价
延迟敏感?
⚡ 自动反馈

实时错误检测与修正
📊 批量人工标注

离线分析与 A/B 测试

最佳实践:对 SLA 合规性影响最大的场景,建议优先采用批量人工标注策略(如延迟偏好标注),同时将缺失知识识别等关键信号实时采集,兼顾效率与准确性。

4. 反馈数据结构设计:让 AI 不仅能"看到"反馈,更能"理解"反馈

反馈数据只有经过"结构化"才能真正被利用。下面对比一下"非结构化"和"结构化"反馈的区别:

维度 非结构化反馈 结构化反馈
信号形式 "不对,重来" {score: 2, reason: "日期格式错误", suggestion: "使用 YYYY-MM-DD"}
可解析性 差,需依赖模型二次理解 强,程序可直接处理
可聚合性 差,无法批量分析 强,可统计趋势
可归因性 差,不知错误根源 强,可定位到具体步骤
跨会话复用 不能 可以,存储为规则

4.1 结构化反馈的核心字段

一个优秀的反馈数据结构应至少包含以下信息:

复制代码
{
  // 基础信息
  "session_id": "session_12345",
  "run_id": "run_67890",
  "timestamp": "2026-05-17T10:30:00Z",
  
  // 反馈内容
  "feedback_type": "negative",           // 类型: positive / negative / neutral
  "score": 2,                            // 评分: 1-5 或 0-100
  "category": "format_error",            // 分类: 格式/事实/语气/安全/性能
  "reason": "输出缺少必要的 JSON 格式",
  "suggestion": "应该输出 {\"result\": ...} 格式",
  
  // 上下文
  "input_snapshot": "用户要求: 查询订单 123",
  "output_snapshot": "您的订单正在处理中",
  "expected_output": "{\"status\": \"processing\"}",
  
  // 归因
  "faulty_component": "formatter",       // 哪个组件出错了
  "error_location": "step_3",            // 具体哪个步骤
  
  // 反馈来源
  "source": "user",                      // user / auto / system
  "confidence": 0.95,                    // 反馈的置信度
}

4.2 DBNT 反馈协议:一个借鉴思路

DBNT(Do Better Next Time)是目前最成熟的 Agent 反馈协议之一。它提供了一个分级反馈体系:

级别 命令 含义 评分影响
DB Do Better 表现略差,需要改进 +1
DBN Do Better Next 明显错误,必须修正 +3
DBNM Do Better Next Marked 严重错误,立即处理 +5
DBYC Do Better You're Cooked 灾难性错误,触发熔断 +10

这套分级体系的核心优势在于:将反馈"毒性"量化------轻微的格式错误和严重的业务逻辑错误被区别对待,让 Agent 的调整幅度与实际问题的严重程度相匹配。

DBNT 的另一个核心设计是信号检测引擎------无需用户使用特殊语法,系统自动从自然语言中识别反馈意图。"这不太对"和"这完全错了"都能被正确分类。识别后的反馈被编码为带权重的 Markdown 规则,分别存储成功路径和失败路径。检测引擎还内置了模式识别能力:同一反馈模式出现三次,自动提升为永久规则。

5. 反馈闭环流程:执行 → 评价 → 修正 → 存储 → 复用

完整的反馈闭环包含五个阶段。这个闭环越短,Agent 的进化速度越快。
优化引擎 反馈存储 经验库 反馈收集层 Agent 执行层 用户 优化引擎 反馈存储 经验库 反馈收集层 Agent 执行层 用户 阶段1: 执行 阶段2: 评价 阶段3: 修正 阶段4: 存储 阶段5: 复用 用户消息 Agent 输出 用户反馈 (点赞/修正/评分) 自动反馈 (API 状态/格式校验) 分析反馈并归因定位 (可选) 实时修正输出 写入结构化的反馈记录 触发优化流程 更新策略/注入经验

5.1 阶段一:执行

Agent 接收用户输入,通过指令层、记忆层、规划层、工具层协同完成一次执行,并将输出返回给用户。

5.2 阶段二:评价

这是反馈闭环最关键的一步------评价发生在多个层面:

A. 用户评价(人工反馈)

  • 显式:点赞/点踩、评分、修正文本、驳回操作。
  • 隐式:用户是否采纳 Agent 的建议、用户是否主动复制输出、用户是否立刻离开对话。

B. 系统评价(自动反馈)

  • 运行指标:API 调用是否成功、响应时间、Token 消耗。
  • 质量指标:输出格式是否符合 JSON Schema、是否违反安全规则。
  • 任务指标:预设子目标是否全部完成。

5.3 阶段三:修正

在某些场景下,反馈可以触发"即时修正"------不是在下次调用中生效,而是在同一次调用中立即调整。

  • Self-Reflect(自我反思) :输出后进行自评,如发现错误立即修正。
  • Critic 模型:专门的模型评价主模型输出,反馈供其优化。

5.4 阶段四:存储

反馈数据必须持久化存储到经验库中。存储策略直接影响后续的学习效果:

  • 结构化存储:按时间、类型、归因组件建索引。
  • 元标签丰富:时间戳、环境参数、任务类型、用户角色、执行结果等多维度元标签,保证每条经验可追溯、可筛选。
  • 版本化:标记反馈对应的 Agent 版本。

5.5 阶段五:复用

这是反馈闭环的价值兑现环节。存储在经验库中的反馈记录,最终用于改进 Agent 的未来行为:

A. 短期复用:会话内学习

同一会话内用户纠正过的错误立即生效,通过"知识补丁表"动态注入上下文。

B. 中期复用:批量模式挖掘

每日/每周离线分析反馈日志,识别高频错误模式、提炼成功路径模板、更新技能评估参数。Hermes 的三级循环机制正是这一思路的系统化落地。

C. 长期复用:模型微调

将高质量反馈数据积累为训练集,定期进行 LoRA 或全参数微调,从底层优化模型行为。

6. 实战:让 AI 自动根据反馈优化行为(结合 Hermes 学习循环)

反馈机制的最高境界是 Agent 在无人介入的情况下,也能从自己的执行历史中持续学习。Hermes Agent 正是这条路径的典型代表------它的"感知-决策-执行"核心循环内部嵌入了三层学习架构,让 Agent 从"用完即弃"变成"越用越强"。

6.1 Hermes 的三级反馈循环

Hermes 系统的进化遵循三层不同的时间尺度:

循环层级 触发频率 处理机制 典型产出
短期循环 单任务执行后 立即进行局部调整 修正单次执行中的具体错误
中期循环 每日 批量分析执行日志 更新技能评估参数,提炼模式
长期循环 每周 全局技能图谱重构 重新组织技能结构,淘汰冗余规则

Hermes 在 30 天的持续训练实验中自动生成了 157 个新技能,同时优化了 83 个现有技能,任务处理效率提升 65%。

6.2 代码实战:基于 DBNT 协议的反馈系统

基于 DBNT 协议和 Hermes 学习循环的设计思想,下面实现一个可运行的反馈层核心逻辑。

复制代码
# dbnt_feedback.py
# 基于 DBNT 协议的反馈层实现

from typing import List, Dict, Optional
from dataclasses import dataclass, field
from datetime import datetime
import json
import hashlib


@dataclass
class FeedbackSignal:
    """结构化反馈信号"""
    session_id: str
    run_id: str
    timestamp: datetime
    feedback_level: str  # DB, DBN, DBNM, DBYC
    score: int
    category: str
    reason: str
    suggestion: Optional[str] = None
    input_snapshot: Optional[str] = None
    output_snapshot: Optional[str] = None
    source: str = "user"  # user/auto/system
    
    @property
    def weight(self) -> float:
        """根据反馈级别计算权重"""
        weights = {"DB": 1.0, "DBN": 3.0, "DBNM": 5.0, "DBYC": 10.0}
        return weights.get(self.feedback_level, 1.0)


@dataclass
class Rule:
    """可复用的经验规则"""
    rule_id: str
    pattern: str  # 触发条件的自然语言描述
    action: str   # 应该采取的行动
    weight: float  # 当前权重
    success_count: int = 0
    failure_count: int = 0
    last_applied: Optional[datetime] = None
    
    def apply_success(self) -> None:
        """成功应用本规则时调用"""
        self.success_count += 1
        self.weight = min(self.weight * 1.05, 10.0)
        self.last_applied = datetime.now()
    
    def apply_failure(self) -> None:
        """本规则导致失败时调用"""
        self.failure_count += 1
        self.weight = max(self.weight * 0.95, 0.1)
        self.last_applied = datetime.now()


class FeedbackProcessor:
    """反馈处理器,负责收集、分析和触发学习"""
    
    def __init__(self):
        self.feedback_store: List[FeedbackSignal] = []
        self.rules: Dict[str, Rule] = {}
        self.pattern_counters: Dict[str, int] = {}
    
    def collect_feedback(self, signal: FeedbackSignal) -> None:
        """阶段1 & 2: 收集反馈,按级别赋权评分"""
        print(f"[Feedback] 收到 {signal.feedback_level} 级反馈,"
              f"权重: {signal.weight}, 类别: {signal.category}")
        self.feedback_store.append(signal)
        self._trigger_pattern_analysis()
        self._trigger_learning(signal)
    
    def _trigger_pattern_analysis(self) -> None:
        """阶段4 & 5: 从累积反馈中提炼模式"""
        if len(self.feedback_store) < 10:
            return
        
        # 统计最近反馈的类别分布
        from collections import Counter
        recent = self.feedback_store[-50:]
        category_counts = Counter(s.category for s in recent)
        
        # 检测高频错误模式
        for category, count in category_counts.items():
            if count >= 5:
                pattern_key = f"category_{category}"
                self.pattern_counters[pattern_key] = \
                    self.pattern_counters.get(pattern_key, 0) + 1
                
                # 同一模式出现3次,自动提升为永久规则
                if self.pattern_counters[pattern_key] >= 3:
                    self._auto_promote_rule(category)
                    self.pattern_counters[pattern_key] = 0
    
    def _auto_promote_rule(self, category: str) -> None:
        """自动将高频反馈模式升级为永久规则"""
        rule_id = hashlib.md5(
            f"auto_rule_{category}".encode()
        ).hexdigest()[:8]
        
        pattern_map = {
            "format_error": "输出缺少规定的 JSON 结构",
            "hallucination": "包含训练数据中不存在的事实信息",
            "tool_misuse": "使用了错误的工具或参数",
            "boundary_violation": "尝试执行未授权的操作",
        }
        action_map = {
            "format_error": "强制要求输出前进行格式校验",
            "hallucination": "必须检索外部知识库进行验证",
            "tool_misuse": "执行前进行工具权限二次检查",
            "boundary_violation": "直接拒绝并记录安全事件",
        }
        
        if category in pattern_map:
            self.rules[rule_id] = Rule(
                rule_id=rule_id,
                pattern=pattern_map[category],
                action=action_map[category],
                weight=5.0
            )
            print(f"[Feedback] 自动提升规则: {pattern_map[category]} → {action_map[category]}")
    
    def _trigger_learning(self, signal: FeedbackSignal) -> None:
        """触发学习循环(阶段5)"""
        # 根据反馈级别决定学习深度
        if signal.feedback_level == "DB":
            self._apply_short_term_learning(signal)
        elif signal.feedback_level == "DBN":
            self._apply_medium_term_learning(signal)
        elif signal.feedback_level in ["DBNM", "DBYC"]:
            self._apply_long_term_learning(signal)
    
    def _apply_short_term_learning(self, signal: FeedbackSignal) -> None:
        """短期学习:立即注入会话上下文"""
        print(f"[短循环] 立即优化: {signal.suggestion or signal.reason}")
    
    def _apply_medium_term_learning(self, signal: FeedbackSignal) -> None:
        """中期学习:更新规则库"""
        if signal.suggestion:
            existing_rules = [
                r for r in self.rules.values() 
                if r.action == signal.suggestion
            ]
            for rule in existing_rules:
                rule.weight += signal.weight * 0.1
            print(f"[中循环] 规则更新完成,当前规则数: {len(self.rules)}")
    
    def _apply_long_term_learning(self, signal: FeedbackSignal) -> None:
        """长期学习:触发全量优化"""
        print(f"[长循环] 严重错误,触发优化流程: {signal.reason}")
        self.schedule_full_optimization()
    
    def schedule_full_optimization(self) -> None:
        """安排全量优化任务"""
        pass
    
    def get_rules_for_context(self) -> List[Rule]:
        """返回适用于当前上下文的高权重规则(用于记忆层注入)"""
        now = datetime.now()
        rules = [
            r for r in self.rules.values() 
            if r.weight > 1.0
        ]
        # 按权重降序返回
        return sorted(rules, key=lambda x: x.weight, reverse=True)[:10]


# 使用示例
if __name__ == "__main__":
    processor = FeedbackProcessor()
    
    # 模拟收集反馈
    processor.collect_feedback(FeedbackSignal(
        session_id="sess_001",
        run_id="run_001",
        timestamp=datetime.now(),
        feedback_level="DBN",
        score=3,
        category="format_error",
        reason="输出不是有效的 JSON",
        suggestion="所有回复必须符合 JSON Schema",
        source="user"
    ))
    
    rules = processor.get_rules_for_context()
    print(f"\n当前有效规则数: {len(rules)}")

6.3 三种学习循环的完整工作流

将 Hermes 的三级循环落实到代码层面:
每周全局
会话级别
单次任务级别


次数>=3
部署
Agent 执行
输出
Self-Reflect
需修正?
立即重试
反馈收集器
增量规则更新
技能评估参数更新
模式检测
批量日志分析
全库规则校验
技能图谱重构
冗余淘汰
新版本策略

7. 总结 + 实践 Checklist

7.1 核心要点回顾

  1. 反馈层是 Harness 的灵魂:它让 AI Agent 从静态执行工具进化为持续学习的智能系统。
  2. 两种反馈协同工作:正向强化(成功路径复用)和负向修正(错误避免),缺一不可。成功信号的权重应当高于失败信号。
  3. 自动反馈覆盖常见错误:基于规则的格式校验、API 状态检测、自我反思;人工反馈处理复杂偏好和业务逻辑。
  4. 结构化是前提:无结构的反馈无法被系统有效利用。评分、分类、原因、建议缺一不可。
  5. Hermes 三级循环是工程范式:短期循环(即时修正)+ 中期循环(批量日志分析)+ 长期循环(全局重构),三环共振实现持续进化。
  6. Agent-in-the-Loop 将人工反馈嵌入运营流程:将反馈周期从数月压缩到数周。

7.2 反馈层落地 Checklist

# 检查项
1 是否区分了自动反馈和人工反馈两条通道?
2 自动反馈是否覆盖了格式、API、安全、任务完成度?
3 人工反馈是否设置了最低拦截率(采样而非全量)?
4 反馈数据是否结构化存储?包含评分、类别、原因、建议?
5 是否建立了反馈的 Severity 分级体系(如 DB → DBYC)?
6 短期学习(会话内修正)是否已实现?
7 中期学习(批量规则提炼)是否已运行?
8 长期学习(全局优化)是否已编排?
9 反馈数据是否用于离线模型微调?
10 是否有针对 Success 路径的单独追踪和加权?

7.3 专栏系列预告

本文是 Harness 组件拆解系列 的第 3 篇(反馈层)。本系列完整路线图:

篇章 主题 状态
第 1 篇 指令层(Instruction) ✅ 已发布
第 2 篇 记忆层(Memory) 📝 筹备中
第 3 篇 规划层(Planner) 📝 筹备中
第 4 篇 工具层(Tools) 📝 筹备中
第 5 篇 反馈层(Feedback) ✅ 本文
第 6 篇 安全护栏(Safety) 📝 筹备中

如果你希望自己的 AI Agent 真正实现"越用越聪明",请务必从今天开始为你的系统加装反馈层。没有反馈闭环的 AI 终究只能是个演示 Demo------有反馈闭环的 AI 才能成为真正的生产伙伴。

下期见!

🔗 参考资源

版权声明:本文为 CSDN 博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

相关推荐
仰泳之鹅2 分钟前
【物联网】使用MQTTX与OneNET云平台进行模拟MQTT协议通信
网络·物联网
深兰科技26 分钟前
韩国KAIST AI半导体高管项目代表团到访深兰科技,聚焦AI算力与智能产业合作机会
人工智能·机器人·symfony·ai算力·深兰科技·韩国科学技术院·kaist
快乐on9仔32 分钟前
NLP学习(一)transformers之pipeline体验
人工智能·深度学习
冬奇Lab1 小时前
Agent系列(六):记忆管理——让 Agent 记住重要的事
人工智能·agent
冬奇Lab1 小时前
一天一个开源项目(第113篇):notebooklm-py - 把 Google NotebookLM 变成可编程 API,还能接入 Claude Code
人工智能·google·开源
字节跳动开源2 小时前
Viking AI 搜索 CLI 正式发布:会说话,就能做搜索推荐
数据库·人工智能·开源
阿杰技术2 小时前
AI 编程助手落地实战:从提效到重构的全场景指南
人工智能·重构
Agent手记2 小时前
制造业生产流程自动化,Agent需要具备哪些能力?深度拆解2026工业级智能体落地范式与核心架构
大数据·人工智能·ai·架构·自动化
道里2 小时前
花了 5 万刀用 AI 写代码之后,这是我的全部经验
前端·人工智能