rubric系列论文粗读笔记

Rubric-ARM

来自Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training(https://arxiv.org/pdf/2602.01511),Rubric-ARM 中的 ARM 是 Alternating Reinforcement Learning(交替强化学习)的意思,顾名思义就是Rubric生成器和评判模型联合优化,但并没有开源数据

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

团队提出了一个benchmark HelpSteer3-Atomic用来评测所谓的Rationale Consistency

该指标用于衡量"模型给出的判断理由"与"人类评审理由"之间的一致程度,目标是直接刻画推理过程是否对齐,而不只是结果是否正确。这个评审理由其实人类就是从人类的评论中抽出来的rubric

Learning Query-Specific Rubrics from Human Preference for DeepResearch Report Generation

如何自动生成既具有针对性(Query-Specific),又能与人类偏好高度对齐的评分标准,以此来指导 DeepResearch 系统的训练?

更像是三个方面工作的拼凑:

  • 找人标形成了一个5000个样本的"问题 - 好报告 - 差报告"的三元组数据集
  • Rubric Generators: 输入一个查询,输出一套针对该查询的评分标准(包含标题、描述、权重)。
  • 提出了一种新的多智能体马尔可夫状态(MaMs):状态抽象【记忆(Memory)、计划(Plan)、草稿(Report)】、分工合作【搜索Agent、记忆Agent、汇报Agent】、共享大脑【虽然分了三个角色,但它们其实共用同一个策略模型(LLM),只是通过不同prompt切换角色】

评测中用了Paired Cohen's d(配对Cohen's d) 是用于衡量模型对人类偏好报告的区分强度与稳定性的标准化效应量指标,和偏好准确率(Pref. Acc./AUC)形成互补评估。

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

这篇提供了完整的数据

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep ResearchDR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

和第三篇类似,也关注deep reseach场景,同时提出rubric也需要是动态的

开源方面,发布了基于 MCP(Model Context Protocol)的智能体库 dr-agent-lib,支持异步工具调用,方便社区开发。构建了一个新的临床数据集 GeneticDiseasesQA,用于测试模型在极具挑战性的专家级任务上的表现,DR Tulu 在此任务上也展现了强大的竞争力。

rubric 缓冲区如何控规模:只保留"最能区分好坏"的那一批

AdvancedIF: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

场景是复杂指令遵循,当用户给出包含多重约束、跨越多轮对话或涉及系统级设定的复杂指令时,模型往往无法精准执行,而且这个时候,reward他也很难给出判断。因此团队先搞了个bench,然后给出了一个训练pipeline,让一个rubric generator从海量prompt中抽取rubric。

Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

来自Seed,中了2025 ICRL,自己训练了rubric generator和verifier,前者直接sft,后者sft+rl,很吃golden的annotation

参考文档

相关推荐
c7699 小时前
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional Coevolution
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
Bnews9 小时前
买家电一对一的定制服务推荐:2026年618期间的专业选择指南
经验分享·笔记
佛系豪豪吖9 小时前
AtomCode 部署流程与使用经验
笔记·chatgpt·github·ai编程·gitcode
疯狂打码的少年10 小时前
【程序语言与编译】NFA转DFA(子集构造法)
前端·笔记
咸甜适中10 小时前
rust语言学习笔记Trait(十七)Send、Sync(线程间数据所有权)
笔记·学习·rust
尘汐筠竹10 小时前
Day1-2 学习笔记:在 AMD 云环境上部署 Gemma 4 大模型
笔记·学习·datawhale·amdev
逸模10 小时前
逸模 VS CAD+SU系列(三)工程量---逸模模型级智能算量,数据同源闭环 助力公装项目精准控本高效拓店
人工智能·笔记·算量·公装·构件库
zhangrelay10 小时前
个体智能大模型使用的主观数据复盘-节选-2026-
笔记·学习·课程设计
lunzi_082611 小时前
【学习笔记】《Python编程 从入门到实践》第9章:类、继承、组合与面向对象编程
笔记·python·学习
神明不懂浪漫11 小时前
【第二章】Java中的数据类型,运算符与程序逻辑控制
java·开发语言·经验分享·笔记