Rubric-ARM
来自Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training(https://arxiv.org/pdf/2602.01511),Rubric-ARM 中的 ARM 是 Alternating Reinforcement Learning(交替强化学习)的意思,顾名思义就是Rubric生成器和评判模型联合优化,但并没有开源数据
Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models
团队提出了一个benchmark HelpSteer3-Atomic用来评测所谓的Rationale Consistency
该指标用于衡量"模型给出的判断理由"与"人类评审理由"之间的一致程度,目标是直接刻画推理过程是否对齐,而不只是结果是否正确。这个评审理由其实人类就是从人类的评论中抽出来的rubric
Learning Query-Specific Rubrics from Human Preference for DeepResearch Report Generation
如何自动生成既具有针对性(Query-Specific),又能与人类偏好高度对齐的评分标准,以此来指导 DeepResearch 系统的训练?
更像是三个方面工作的拼凑:
- 找人标形成了一个5000个样本的"问题 - 好报告 - 差报告"的三元组数据集
- Rubric Generators: 输入一个查询,输出一套针对该查询的评分标准(包含标题、描述、权重)。
- 提出了一种新的多智能体马尔可夫状态(MaMs):状态抽象【记忆(Memory)、计划(Plan)、草稿(Report)】、分工合作【搜索Agent、记忆Agent、汇报Agent】、共享大脑【虽然分了三个角色,但它们其实共用同一个策略模型(LLM),只是通过不同prompt切换角色】
评测中用了Paired Cohen's d(配对Cohen's d) 是用于衡量模型对人类偏好报告的区分强度与稳定性的标准化效应量指标,和偏好准确率(Pref. Acc./AUC)形成互补评估。
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
这篇提供了完整的数据
DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep ResearchDR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
和第三篇类似,也关注deep reseach场景,同时提出rubric也需要是动态的!
开源方面,发布了基于 MCP(Model Context Protocol)的智能体库 dr-agent-lib,支持异步工具调用,方便社区开发。构建了一个新的临床数据集 GeneticDiseasesQA,用于测试模型在极具挑战性的专家级任务上的表现,DR Tulu 在此任务上也展现了强大的竞争力。
rubric 缓冲区如何控规模:只保留"最能区分好坏"的那一批
AdvancedIF: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
场景是复杂指令遵循,当用户给出包含多重约束、跨越多轮对话或涉及系统级设定的复杂指令时,模型往往无法精准执行,而且这个时候,reward他也很难给出判断。因此团队先搞了个bench,然后给出了一个训练pipeline,让一个rubric generator从海量prompt中抽取rubric。
Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics
来自Seed,中了2025 ICRL,自己训练了rubric generator和verifier,前者直接sft,后者sft+rl,很吃golden的annotation