rubric系列论文粗读笔记

Rubric-ARM

来自Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training(https://arxiv.org/pdf/2602.01511),Rubric-ARM 中的 ARM 是 Alternating Reinforcement Learning(交替强化学习)的意思,顾名思义就是Rubric生成器和评判模型联合优化,但并没有开源数据

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

团队提出了一个benchmark HelpSteer3-Atomic用来评测所谓的Rationale Consistency

该指标用于衡量"模型给出的判断理由"与"人类评审理由"之间的一致程度,目标是直接刻画推理过程是否对齐,而不只是结果是否正确。这个评审理由其实人类就是从人类的评论中抽出来的rubric

Learning Query-Specific Rubrics from Human Preference for DeepResearch Report Generation

如何自动生成既具有针对性(Query-Specific),又能与人类偏好高度对齐的评分标准,以此来指导 DeepResearch 系统的训练?

更像是三个方面工作的拼凑:

  • 找人标形成了一个5000个样本的"问题 - 好报告 - 差报告"的三元组数据集
  • Rubric Generators: 输入一个查询,输出一套针对该查询的评分标准(包含标题、描述、权重)。
  • 提出了一种新的多智能体马尔可夫状态(MaMs):状态抽象【记忆(Memory)、计划(Plan)、草稿(Report)】、分工合作【搜索Agent、记忆Agent、汇报Agent】、共享大脑【虽然分了三个角色,但它们其实共用同一个策略模型(LLM),只是通过不同prompt切换角色】

评测中用了Paired Cohen's d(配对Cohen's d) 是用于衡量模型对人类偏好报告的区分强度与稳定性的标准化效应量指标,和偏好准确率(Pref. Acc./AUC)形成互补评估。

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

这篇提供了完整的数据

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep ResearchDR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

和第三篇类似,也关注deep reseach场景,同时提出rubric也需要是动态的

开源方面,发布了基于 MCP(Model Context Protocol)的智能体库 dr-agent-lib,支持异步工具调用,方便社区开发。构建了一个新的临床数据集 GeneticDiseasesQA,用于测试模型在极具挑战性的专家级任务上的表现,DR Tulu 在此任务上也展现了强大的竞争力。

rubric 缓冲区如何控规模:只保留"最能区分好坏"的那一批

AdvancedIF: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

场景是复杂指令遵循,当用户给出包含多重约束、跨越多轮对话或涉及系统级设定的复杂指令时,模型往往无法精准执行,而且这个时候,reward他也很难给出判断。因此团队先搞了个bench,然后给出了一个训练pipeline,让一个rubric generator从海量prompt中抽取rubric。

Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

来自Seed,中了2025 ICRL,自己训练了rubric generator和verifier,前者直接sft,后者sft+rl,很吃golden的annotation

参考文档

相关推荐
泡泡茶壶Wending9 小时前
OpenGL笔记之光照原理一漫反射
笔记
hssfscv9 小时前
软件设计师2021上、下上午题错题解析+2022上、下下午题训练5道 练习真题训练16
笔记·设计模式·uml
天天爱吃肉82189 小时前
新能源汽车测试工程师工作笔记:VCU输出PWM波常见问题排查
笔记·功能测试·嵌入式硬件·汽车
xiaoyuchidayuma9 小时前
【cherrystudio接入硅基流动的DeepSeek R1大模型API】
笔记·语言模型
jimmyleeee9 小时前
人工智能基础知识笔记四十:Claude 扩展机制深度解构:Command、Skill、Sub-agent 与 Hook 的四层协同架构
人工智能·笔记
xian_wwq10 小时前
【学习笔记】探讨大模型应用安全建设系列6——合规备案:大模型备案与监管合规实操
笔记·学习·安全
kels889910 小时前
加密货币实时api的订单簿快照多久更新一次?
开发语言·笔记·python·金融·区块链
QiZhang | UESTC10 小时前
InstructGPT_论文精读笔记
人工智能·笔记·深度学习
xian_wwq10 小时前
【学习笔记】探讨大模型应用安全建设系列7——安全评测与红队测试
笔记·学习·安全
_李小白10 小时前
【Android车载学习笔记】第四天:AAOS系统架构
android·笔记·学习