【RLVR】GRPO中奖励函数的设计逻辑

note

  • 只要有足够好的验证奖励方式(不管是模型,还是规则,还是环境),很多用监督学习做的任务(不限于大模型)都值得用监督学习+RLVR再做一遍。
  • 翻译大模型DeepTrans的奖励函数:格式reward、思考链reward、翻译质量reward
  • Reward Shaping = 让奖励更"有梯度",让奖励从稀疏变成密集、有层次,从而引导模型更快收敛,防止一点错误就reward为0导致奖励稀疏。

文章目录

一、GRPO中常见的奖励函数设计

1、DeepSeek-R1(数学推理)

1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

奖励函数:

  • 格式正确性:如思考链在<think></think>之间等
  • 内容正确性:可行性验证,数学运算/代码运行正确等

2、DeepTrans(翻译)

翻译大模型(wechat微信)DeepTrans: Deep Reasoning Translation via Reinforcement Learning

https://arxiv.org/pdf/2504.10187v2

1、格式reward

2、思考质量reward

作用:避免模型"跳过推理直接翻译",确保推理过程对翻译质量有实际指导意义(尤其针对文学翻译中的隐喻、文化背景)。
r thought = { 2 if v 3 th ( s r c , think ) = detailed analysis 1 if v 3 th ( s r c , think ) = slight analysis 0 if v 3 th ( s r c , think ) = a lack of analysis r_{\text {thought }}= \begin{cases}2 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { detailed analysis } \\ 1 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { slight analysis } \\ 0 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { a lack of analysis }\end{cases} rthought =⎩ ⎨ ⎧210 if v3th (src, think )= detailed analysis if v3th (src, think )= slight analysis if v3th (src, think )= a lack of analysis

3、翻译质量reward

作用:评估译文的流畅性、语义准确性、文学性(针对文学翻译场景),通过DeepSeek-v3按 100分制 评分,评分标准细化为5个梯度,每个梯度对应明确的质量要求。

最终得分的计算方式:
r all = { 0 if r format = 0 r trans + α × r thought if r format ≠ 0 r_{\text {all }}= \begin{cases}0 & \text { if } r_{\text {format }}=0 \\ r_{\text {trans }}+\alpha \times r_{\text {thought }} & \text { if } r_{\text {format }} \neq 0\end{cases} rall ={0rtrans +α×rthought if rformat =0 if rformat =0

3、腾讯开源WMT2025冠军方案翻译模型

https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

奖励函数,解决机器翻译输出语义多样难评估、术语捕捉不足、训练后期输出重复等问题。

开源地址:https://github.com/Tencent-Hunyuan/Hunyuan-MT,https://huggingface.co/tencent/Hunyuan-MT-7B

在线体验:https://hunyuan.tencent.com/modelSquare/home/list

包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera

奖励函数:

(1)Quality-Aware Reward质量感知奖励(XCOMET-XXL、DeepSeek-V3-0324评分)

  • XCOMET-XXL评分:

    • 基于预训练的跨语言语义理解模型XCOMET-XXL(https://huggingface.co/Unbabel/XCOMET-XXL)
    • 通过对比"模型生成译文" 与 "参考译文"的语义相似度、句法合理性、文化适配性,输出0-1的量化评分(评分越高,质量越优)。
  • DeepSeek-V3-0324评分:

    • 通过特定提示引导模型对译文的 "准确性"(是否忠实原文)、"流畅度"(语法是否自然)、"完整性"(是否遗漏核心信息)进行分项打分,再综合为最终奖励值。
    • 这个借助改编自GEMBA框架(GEMBA,GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4,GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4,https://arxiv.org/pdf/2310.13988)的提示模板。

(2)Terminology-Aware Reward术语感知奖励(TAT-R1的词对齐机制)

  • 采用TAT-R1(https://arxiv.org/pdf/2505.21172,TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment)的思路,使用无监督词对齐工具SimAlign,从平行语料中提取源文本、参考译文、模型预测译文间的词级对应关系;
  • 结合命名实体识别筛选名词类关键术语,然后采用类似于对比 "模型生成译文" 与 "术语库",计算两者的术语重叠率(即生成译文中正确翻译的术语数量占参考术语总数的比例)。

(3)Repetition Penalty重复惩罚

若检测到重复模式,根据重复频率和长度扣除对应奖励(重复越严重,惩罚越高),倒逼模型生成多样化输出。

4、agent数据合成场景

【Agent数据合成进展】讲的故事是-现有基于大模型(LLM)的搜索智能体多采用实体中心合成数据训练,但主流训练方法(如GRPO)仅依赖稀疏的"结果导向型奖励",丢弃了合成数据中的实体信息。并且无法区分"近失样本"(推理过程基本正确但最终答案错误)与完全失败样本,浪费了学习信号,导致奖励稀疏问题,所以有这个工作:

Repurposing Synthetic Data for Fine-grained Search Agent Supervision,

http://arxiv.org/pdf/2510.24694v1,https://tongyi-agent.github.io/blog,https://github.com/Alibaba-NLP/DeepResearch

搞了个实证分析表明智能体推理过程中识别的真实实体数量(实体匹配率) 与最终答案准确率呈强正相关,实体可作为细粒度监督信号的有效代理。

核心看几点。

1)核心思路,复用合成数据生成过程中被丢弃的真实实体,设计稠密的实体感知奖励函数,为错误样本分配与实体匹配率成正比的部分奖励。

  1. 奖励函数定义,正确样本奖励=1;错误样本奖励=α·标准化实体匹配率(α∈[0,1],平衡准确率与实体匹配权重);格式错误/超长篇幅样本奖励=0。

3)训练方式,先通过1.1万SailorFog-QA样本进行冷启动SFT,再用1千合成样本进行RL训练(保留实体信息用于E-GRPO),基于Qwen2.5-7B/30B。

4)结果,在单跳QA(NQ、TriviaQA等)、多跳QA(HotpotQA、MuSiQue等)及深度研究基准(GAIA、BrowseComp等)数据集上, 对比基线GRPO(核心基线)、ReAct类智能体(如R1-Searcher-7B)、先进闭源模型(OpenAI-o3、Claude-4-Sonnet等)有明显收益。

二、如何设计奖励函数

1、Unsloth训练框架官方文档:reward function没有标准做法,但要有意义

There's no single correct way to design reward functions or verifiers - the possibilities are endless.

However, they must be well-designed and meaningful, as poorly crafted rewards can unintentionally degrade model performance.

https://docs.unsloth.ai/get-started/reinforcement-learning-rl-guide

2、阶梯分值有用,GRPO类算法是计算组相对优势,组内分数有差异更能体现这个阶梯分数价值,给出合理的奖励信号,如果相等为1错误为0,对于错误的response直接为0,奖励稀疏。

但很多论文会直接给出奖励函数(甚至不给奖励函数具体怎么做),但目前都没看到有贴出奖励函数层面的某项的消融实验。

Reference

1\] [WMT2025翻译模型冠军思路-多维度视角下的强化学习奖励信号设计及多步骤训练](https://mp.weixin.qq.com/s/pI7NIgjjUEXjWgUChskNng?scene=1) \[2\] [GRPO强化学习训练翻译模型的奖励函数设计](https://mp.weixin.qq.com/s/8ABI3IJB-3bItJjUk4n_sA) \[3\] [InternLM2 RLHF 技术解读(一):奖励模型理论篇](https://mp.weixin.qq.com/s/gosBAgtEi4bb9_JJ6rRbdQ) \[4\] [InternLM2 RLHF 技术解读(二):奖励函数篇](https://mp.weixin.qq.com/s/0wBmEfJbmpBfsyTsmnGy5w) \[5\] [Lilian Weng万字长文:强化学习中的Reward Hacking](https://mp.weixin.qq.com/s/iSsvwj5BjBgrXfWxy0_EVw) \[6\] [强化学习《奖励函数设计: Reward Shaping》详细解读.网易伏羲实验室](https://mp.weixin.qq.com/s/tv8Tq9hIsll9_aPGUKI8qQ)

相关推荐
在未来等你2 小时前
AI Agent设计模式 Day 2:Plan-and-Execute模式:先规划后执行的智能策略
设计模式·llm·react·ai agent·plan-and-execute
有意义3 小时前
从零搭建:json-server+Bootstrap+OpenAI 全栈 AI 小项目
前端·后端·llm
数据智能老司机6 小时前
构建多智能体系统——使用工具
llm·agent·mcp
数据智能老司机6 小时前
构建一个 DeepSeek 模型——通过键值缓存(Key-Value Cache, KV Cache)解决推理瓶颈
架构·llm·deepseek
在未来等你8 小时前
AI Agent设计模式 Day 3:Self-Ask模式:自我提问驱动的推理链
设计模式·llm·react·ai agent·plan-and-execute
Larcher1 天前
新手也能学会,100行代码玩AI LOGO
前端·llm·html
架构师日志1 天前
使用大模型+LangExtract从复杂文本提取结构化数据(三)——提取表格列表类型数据
llm
智泊AI1 天前
AI圈炸锅了!大模型的下一片蓝海,彻底爆发了!
llm
常先森1 天前
【解密源码】 RAGFlow 切分最佳实践- naive parser 语义切块(excel & csv & txt 篇)
架构·llm·agent