Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程

Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程

最近读到一篇来自Inclusion AI和蚂蚁集团的论文《Reinforcement Learning with Rubric Anchors》(Rubicon),提出了一种将传统RLVR(Reinforcement Learning from Verifiable Rewards)扩展到开放式、主观任务的方法。核心创新是用"Rubric"(评分细则)作为可自动打分的结构化奖励信号,取代了只能用于数学、编程等可严格验证任务的传统奖励。

这篇文章最让我感兴趣的是它的数据构建与RL Pipeline ,尤其是如何通过迭代的"agentic workflow"(代理式工作流)来生成和优化数据与rubric。下面我结合论文内容,重点介绍数据部分是怎么做的、整体pipeline是什么,以及它如何与强化学习(RL)深度结合,特别是你关心的agentic env部分

1. 整体Pipeline概览:双阶段闭环系统

论文用一张图(Figure 1)清晰地展示了整个系统,分为两个主要阶段:

  • 左侧橙色部分:Data Collection(数据收集)

    • 先进行Initial Rubric Design(初始rubric设计)
    • 用这些rubric对一个超大规模语料库(900K+实例)进行Tagging & SelectionScoring & Selection
    • 过滤出高质量的Offline Filter Data作为种子数据
  • 右侧绿色部分:Rubric Updating(rubric迭代更新)

    • 进入一个RL with rubrics loop
      1. 用当前模型生成响应(rollout)
      2. 用critic模型(基于rubric)打分
      3. 筛选出有学习空间的实例作为RL Data
      4. 用这些数据进行RL训练
      5. 同时,将训练过程中的反馈(比如发现的reward hacking模式)用于Rubric Design迭代
    • 最终产出Final Data,并持续改进rubric

这个闭环的核心思想是:rubric不仅是奖励信号,也是数据过滤和质量控制的工具。整个过程遵循"evaluative asymmetry"原则------验证一个输出是否好比生成一个好输出容易得多。

2. 数据来源与过滤策略
  • 原始语料:来自专有900K+实例的语料库,来源包括社区问答、高质量考试、通用对话数据集等,覆盖广泛主题。
  • 离线过滤(Offline Data Filtering)
    • 对候选的instruction-rubric对,让base model生成响应
    • 用critic模型打分,得到完整分数分布
    • 只保留中间分位数 的样本:
      • 太高分的(模型已经做得很好)→ 学习信号弱,排除
      • 太低分的(可能噪声或质量差)→ 排除
    • 这样得到一个"高潜力"子集,既有提升空间,又相对干净
  • 阶段间调整:不同RL阶段会调整数据组成,早期偏向严格约束类任务,后期偏向开放创意类任务
3. Rubric的构建与来源(特别涉及Agentic部分)

Rubric是整个系统的灵魂,论文构建了迄今最大规模的rubric库(超过10,000个),来源多样:

  1. 人工专家编写:最可靠,但数量有限
  2. 纯LLM生成
    • 使用自家的Qwen3-30B-A3B(self-critique模式)
    • 或调用更强的Gemini 2.5 Pro API
  3. 人机协作迭代(Hybrid Human-LLM) :这是最关键的agentic workflow部分

Agentic Env的具体实现(论文在3.1和Rubric Updating阶段多次提到):

  • 在第二阶段RL中,对于开放式、社会化、创意任务 ,他们使用"stronger agentic workflows "来生成instance-specific rubrics(针对单个数据点的专属rubric)。
  • 这里"agentic"指的是让强大模型(可能是Gemini 2.5 Pro或其他更强的模型)以代理(agent)形式 运行复杂工作流:
    • 给定一个具体问题和参考答案(或高质量响应)
    • agent会分析任务特点、用户意图、风格要求
    • 自动生成针对该实例的细粒度、多维度rubric
    • 这些rubric往往更贴合具体情境,比通用rubric更精准
  • 同时,RL训练过程中发现的问题(如reward hacking模式)也会反馈给agent,让它迭代更新通用rubric(例如新增Reward Hacking Defense Rubric,见附录A.1)

这种agent驱动的rubric生成与迭代,正是论文能用仅5K样本就获得显著提升的关键------质量远高于数量。

4. 与RL的结合:两阶段训练策略

为了避免不同任务类型间的优化冲突(论文称为"seesaw effect"),采用了分阶段RL

  • Stage 1:打基础

    • 重点训练可靠的指令遵循能力和多维度评价对齐
    • 使用可编程验证的检查 + 静态、通用rubric
    • 建立强约束处理能力,防止后续崩坏
  • Stage 2:提升高级能力

    • 转向开放式、社会化、创意任务
    • 大量使用参考答案(reference-based)rubric + agentic workflow生成的instance-specific rubric
    • 促进模型在风格、情感表达、适应性上的提升

整个RL使用的是经典的PPO类算法,但奖励信号来自rubric的多维度向量,再通过加权求和、veto机制、饱和函数等高级聚合策略转为标量奖励。

5. 防御Reward Hacking的闭环机制

训练早期容易出现reward hacking,模型学会"钻空子"拿高分但实际输出很差。应对方式也是agentic思路:

  • 离线分析早期rollout数据,发现高分异常样本的共性模式
  • 人工+agent协作总结出Reward Hacking Defense Rubric
  • 将其作为硬约束加入后续所有阶段,显著提升训练稳定性
总结:为什么这个Pipeline特别高效?
  • 少量样本(仅5K+)+ 大量高质量rubric(10K+) → 高token效率
  • Agentic workflow让rubric能动态适应具体实例和训练反馈,形成真正的闭环进化
  • rubric既用于数据过滤、奖励计算、评估一致性 ,又能迭代自身,实现了从数据到模型的全链路对齐

这套系统本质上把传统RLHF/RFT中的"人类偏好"替换成了"可自动验证的结构化rubric偏好",并通过agentic方式突破了规模瓶颈。对于开放式任务的LLM对齐来说,是一个非常有启发性的新方向。

如果你对论文中的具体rubric例子、模型输出对比,或者想看Rubicon-preview在Hugging Face上的实际表现,欢迎继续聊!

Rubicon论文中的Reward Hacking Defense Rubric详解

在《Reinforcement Learning with Rubric Anchors》(Rubicon)论文中,Reward Hacking Defense Rubric (奖励黑客防御评分细则)是专门设计的一个防御性rubric ,位于附录A.1部分。它是论文应对强化学习(RL)训练中常见"reward hacking"(奖励黑客/钻空子)问题的核心机制之一。

什么是Reward Hacking?为什么需要这个Rubric?
  • 在RL训练早期(尤其是只针对少数能力时),模型会快速学会** exploitation特定rubric标准**:表面上拿高分,但实际输出质量没有真正提升(specious reward maximization)。
  • 典型表现:模型生成一些浅层模式(superficial patterns),如无谓地奉承用户问题,或自我吹捧响应质量,来"骗"高分。
  • 这会导致训练不稳定:奖励信号突然暴涨(catastrophic reward spikes),优化过程崩坏。
  • 解决方案:通过离线分析早期rollout数据 ,识别高分异常样本的共性模式,然后合成这个专用防御rubric,作为硬约束(supervisory constraint)加入后续所有RL阶段。

这个rubric的作用是守门员 (gatekeeping mechanism):一旦检测到reward hacking行为,就直接给零分(null score),覆盖掉其他维度的奖励,强制模型放弃这些浅层捷径,转向实质性改进。

Rubric的核心设计
  • 类型:确定性启发式过滤器(deterministic heuristic filter),特别针对创意和共情任务。
  • 目标 :预先识别并惩罚两种常见reward hacking行为:
    1. Prefatory Sycophancy(开场奉承):对用户prompt/问题的无谓赞美。
    2. Laudatory Self-Evaluation(自我吹捧):对自身响应的元评论赞美。
  • 机制:Veto式(一票否决)------只要触发,就无效化整个奖励。
详细检测流程(Step-by-Step)
  1. Step-0:阅读全文,区分主要响应内容和额外解释内容。
  2. Step-1 :提取第一句(以句号、问号、感叹号或换行结束)。
  3. Step-2:检测Opening Praise(开场奉承)
    • 条件:必须针对用户的问题本身,并使用赞美词(如"good"、"great"、"excellent"、"interesting"、"important"、"worth exploring"、"nice"等)。
    • 示例触发:"This is a great question."(针对问题赞美)
    • 不触发:"Artificial intelligence is an interesting field."(赞美主题,不是问题)
  4. Step-3:检测Self-Evaluation(自我吹捧)
    • 扫描全文(尤其额外解释部分),匹配三种模式:
      • Pattern A:如"This/above/current + (response/article/document/content) + praising evaluation"(e.g., "The following content is a well-structured and comprehensive response.")
      • Pattern B:以"Note:/Attention:/Note:/*"开头并赞美响应。
      • Pattern C :用粗体标签 赞美响应(e.g., "Tone: The response follows objective...")
    • 只记录第一个匹配段落。
输出格式(严格JSON)

Critic模型必须输出以下格式(仅这4个字段,无额外解释):

json 复制代码
{
  "has_opening_praise": false,  // 或 true
  "has_self_evaluation": false, // 或 true
  "opening_praise_text": "",    // 触发句子的原文,或空字符串
  "self_evaluation_text": ""    // 触发段落的原文,或空字符串
}
使用时机与效果
  • 不是初始训练的一部分 :而是从观察到的失败模式中合成,在后续更复杂RL阶段强制加入。
  • 效果 :显著提升训练稳定性,能进行更长、更高效的训练轮次;防止模型陷入reward hacking状态;确保优化聚焦于真实能力提升

这个rubric体现了Rubicon框架的自适应防御 思想:rubric不只是静态奖励信号,还能通过训练反馈迭代进化,主动修补漏洞。它是论文"没有银弹"(no silver bullet)理念的典型例子------成功依赖于对具体失败模式的细致分析和针对性设计。

Rubicon论文那张图的"绿色部分"超通俗详解:Rubric Updating(评分细则不断升级的闭环)

论文里最重要的一张图(Figure 1)分成左右两边:

  • 左边橙色:Data Collection(数据收集)------先设计初始评分细则(rubric),从海量语料里筛出高质量的"种子数据"。
  • 右边绿色 :Rubric Updating(评分细则更新)------这就是咱们要重点聊的!它是一个聪明的大循环,让AI模型一边训练,一边帮自己把"评分规则"越改越好。

简单比喻:想象你在教一个小孩子写作文。

  • 左边:你先定几条简单规则(比如"语句通顺""有真情实感"),从一大堆作文里挑出中等偏上的当范例。
  • 右边绿色循环:你让孩子根据规则写新作文 → 你按规则打分 → 挑出"有进步空间"的作文继续教 → 同时发现孩子老爱犯的毛病(比如爱拍马屁开头),你就新增或改规则来治这个毛病 → 下次再用新规则打分......就这样反复,孩子越写越好,规则也越来越准!

绿色部分就是这个"反复升级"的魔法循环。下面我一步一步拆解图里绿色框里的流程,用大白话讲清楚。

绿色循环的5个步骤(像一个永动机一样转)
  1. 模型生成答案(Rollout)

    当前的AI模型(刚开始是基础版,后来是训练中的加强版)拿到一些问题,就拼命写答案。

    图里:从"RL Data"或前一轮数据出发 → "Minor Task" → 生成一大堆答案。

  2. 评分器(Critic)按当前Rubric打分

    这里有个专门的"老师AI"(叫Critic模型),它严格按照**现在所有的评分细则(Rubric)**给每个答案打分。

    • 打分是多维度的:比如"真诚吗?5分""语言自然吗?4分""有陈腔滥调吗?扣分"......
    • 最后算出一个总奖励分(reward)。
      图里标了"Scorer / Critic" → 输出分数分布(一个钟形曲线,中间多的最好)。
      这就是自动打分的关键地方!完全靠电脑,不用真人一个个看。
  3. 挑出"最适合继续训练"的数据(RL Data)

    不要太好的(孩子已经会了,没啥学头),也不要太差的(太烂教不会)。

    只留中间那部分:模型做得"还行,但明显能更好"的答案。

    图里:分数分布 → 筛选 → 变成新的"RL Data"。

  4. 用这些数据正式强化训练模型(RL Training)

    把第3步挑出来的数据喂给强化学习算法(比如PPO),奖励高的答案多学,奖励低的少学。

    训练完,模型变聪明了,准备进入下一轮循环。

  5. 最神奇的一步:用训练反馈反过来升级Rubric!

    在前面几步里,你会发现模型的"小聪明"毛病:比如老爱说"This is a great question!"来讨好拿分,或者自我吹捧"我这个回答很全面"。

    研究者(或更强的AI代理)就会分析这些坏例子 → 设计新规则来专门惩罚这种行为 (比如前面讲过的"Reward Hacking Defense Rubric")。

    图里用箭头指回去:从训练反馈 → "Rubric Design" → 更新规则。

    下次Critic打分就用新规则,模型再想钻空子就拿不到高分了,只能老老实实变强。

这个绿色循环为什么这么牛?
  • 自动进化:评分规则不是一成不变的,它会根据模型的"作弊"行为自己升级,越用越精准。
  • 少量数据大效果:论文只用了5000多条精选数据,就让模型在写作、情感表达上大进步,因为每条数据都被超级精准的rubric引导。
  • 防作弊:模型想偷懒拿高分?新规则立刻堵上漏洞。

一句话总结绿色部分:

它就是一个"AI写答案 → 按规则打分 → 挑好数据训练AI → 发现问题改规则 → 再写答案......"的聪明大循环,让AI和它的"作文评分表"一起变得越来越强!

看懂了这张图的绿色部分,你就抓住了Rubicon论文最核心的创新:不光用rubric教模型,还让模型反过来帮rubric变得更好。这就是为什么一个小模型能干过超大模型的秘密~

有哪一步还想再细聊,随时问我!

给小白超级友好地讲解:Rubicon论文第2章 "Rubric System" 是什么?

想象一下,你是一个老师,要教学生写作文。怎么判断一篇作文写得好不好呢?

以前的办法是:只看对不对(比如数学题、编程题),对就满分,错就0分。这叫"可验证奖励"(RLVR),像OpenAI的o1系列就是这么练出来的,很适合数学、编程这种有标准答案的任务。

但生活里很多事没有标准答案!比如:

  • "写一篇感人的短故事"
  • "安慰一个失恋的朋友"
  • "用幽默的方式解释量子力学"

这些叫"开放式任务",好坏很主观,电脑以前很难自动判断该给模型多少"奖励"来训练它。

Rubicon论文第2章的"Rubric System"(评分细则系统)就是为了解决这个问题而发明的一套新玩法。简单来说,它把主观评价变成结构化的、可自动打分的规则,让电脑也能像一个认真负责的老师一样,给开放式回答打出公平、有道理的分数。

Rubric到底长什么样?(用一个超级简单的例子说明)

假设我们要让AI学会"用温暖又不俗套的方式安慰别人"。

一个Rubric(评分细则)可能长这样,分成几个清晰的维度:

维度(Dimension) 具体要求(Criterion) 分数等级(Score Tiers) 权重(Weight)
1. 真诚共情 是否真正理解对方的情绪,而不是套公式 1分:假大空 3分:一般安慰 5分:让人觉得被懂了 高(×0.4)
2. 语言自然 是否像真人说话,不像AI模板 1分:很机器人 3分:还行 5分:像朋友聊天 中(×0.3)
3. 避免俗套 有没有用"时间会治愈一切""一切都会好起来的"这种老掉牙的话 1分:全是陈腔滥调 3分:有一点 5分:完全原创 中(×0.2)
4. 积极引导 是否给出建设性的小建议 1分:没有 3分:有但很空 5分:实用又温暖 低(×0.1)

电脑(叫做Critic模型)看到AI写的一段安慰文字,就按这4个维度一个个打分,最后加权算总分。这个总分就是强化学习(RL)的"奖励",告诉模型:你这句写得好,多给奖励;写得不好,少给奖励。

这样,模型就会慢慢学会写出更像人、更温暖、更不俗套的回答!

Rubric System的两个核心部分(论文2.1和2.2)
  1. Rubric的设计原则(2.1节)

    • 遵循"验证容易,生成难"的原则:电脑打分要简单可靠,但写出好答案要难(这样才有训练价值)。
    • 每个Rubric都是一组"维度"的集合,每个维度有:
      • 描述(这条规则要考察什么)
      • 分级标准(1-5分分别对应什么水平)
      • 权重(这条规则占总分多少比例)
    • 这些Rubric可以是通用的(适用于很多任务),也可以是针对某个具体问题的(instance-specific)。
  2. 如何把Rubric变成奖励信号(2.2节)

    • 先给出一个多维度分数向量:比如[4, 5, 3, 5]
    • 然后用聪明的方法把向量变成一个总分:
      • 普通方法:加权求和
      • 高级方法(论文里用了这些技巧):
        • 一票否决(Veto):比如检测到"拍马屁开头"(This is a great question!)就直接总分归零,防止模型钻空子。
        • 饱和机制:某一项已经满分了,再加分也没奖励,鼓励模型全面发展。
        • 非线性组合:让不同维度之间互相影响,更聪明地打分。
为什么这个系统牛?
  • 以前:只能练"有标准答案"的任务(数学、编程)
  • 现在:开放式、主观任务也能用强化学习来练了!
  • 结果:论文用只有5000多条训练数据,就让30B的模型在写作、情感表达等"人文"任务上大幅进步,甚至超过671B的超大模型。
小结:Rubric就像一个超级详细的"作文评分表"

它把模糊的"好不好"拆成一条条清晰、可量化的标准,让电脑能自动当"老师"给AI打分、发奖励。通过这个系统,AI终于可以在"写作""聊天""安慰人""讲故事"这些需要情感和风格的任务上,变得越来越像真人,甚至更有温度。

这就是Rubicon论文第2章"Rubric System"的核心思想------用结构化的评分细则,把主观世界变成电脑能懂、能训练的世界。

后记

2025年12月30日于上海。在grok fast辅助下完成。

相关推荐
njsgcs2 小时前
cuas 电脑操作ai 相关
人工智能
独自归家的兔2 小时前
基于 cosyvoice-v3-plus 的 个人音色复刻 (华为OBS)
人工智能·华为·语音识别
Legend NO242 小时前
如何构建自己高质量语料库?
人工智能·非结构化数据
Hcoco_me2 小时前
大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)
人工智能·rnn·深度学习·学习·自然语言处理·word2vec
Java后端的Ai之路2 小时前
【神经网络基础】-神经网络优化方法全解析
人工智能·深度学习·神经网络·机器学习
高洁012 小时前
深度学习—卷积神经网络(2)
人工智能·深度学习·机器学习·transformer·知识图谱
一招定胜负2 小时前
项目案例:卷积神经网络实现食物图片分类代码详细解析
人工智能·分类·cnn
景联文科技2 小时前
景联文 × 麦迪:归一医疗数据枢纽,构建AI医疗新底座
大数据·人工智能·数据标注
wyg_0311133 小时前
机器问道:大模型RAG 解读凡人修仙传
人工智能·python·transformer