【RLVR】GRPO中奖励函数的设计逻辑

note

只要有足够好的验证奖励方式(不管是模型，还是规则，还是环境)，很多用监督学习做的任务（不限于大模型）都值得用监督学习+RLVR再做一遍。
翻译大模型DeepTrans的奖励函数：格式reward、思考链reward、翻译质量reward
Reward Shaping = 让奖励更"有梯度"，让奖励从稀疏变成密集、有层次，从而引导模型更快收敛，防止一点错误就reward为0导致奖励稀疏。

文章目录

note
一、GRPO中常见的奖励函数设计
二、如何设计奖励函数
Reference

一、GRPO中常见的奖励函数设计

1、DeepSeek-R1（数学推理）

1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

奖励函数：

格式正确性：如思考链在<think>和</think>之间等
内容正确性：可行性验证，数学运算/代码运行正确等

2、DeepTrans（翻译）

翻译大模型（wechat微信）DeepTrans: Deep Reasoning Translation via Reinforcement Learning

https://arxiv.org/pdf/2504.10187v2

1、格式reward

2、思考质量reward

作用：避免模型"跳过推理直接翻译"，确保推理过程对翻译质量有实际指导意义（尤其针对文学翻译中的隐喻、文化背景）。
r thought = { 2 if v 3 th ( s r c , think ) = detailed analysis 1 if v 3 th ( s r c , think ) = slight analysis 0 if v 3 th ( s r c , think ) = a lack of analysis r_{\text {thought }}= \begin{cases}2 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { detailed analysis } \\ 1 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { slight analysis } \\ 0 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { a lack of analysis }\end{cases} rthought =⎩ ⎨ ⎧210 if v3th (src, think )= detailed analysis if v3th (src, think )= slight analysis if v3th (src, think )= a lack of analysis

3、翻译质量reward

作用：评估译文的流畅性、语义准确性、文学性（针对文学翻译场景），通过DeepSeek-v3按 100分制评分，评分标准细化为5个梯度，每个梯度对应明确的质量要求。

最终得分的计算方式：
r all = { 0 if r format = 0 r trans + α × r thought if r format ≠ 0 r_{\text {all }}= \begin{cases}0 & \text { if } r_{\text {format }}=0 \\ r_{\text {trans }}+\alpha \times r_{\text {thought }} & \text { if } r_{\text {format }} \neq 0\end{cases} rall ={0rtrans +α×rthought if rformat =0 if rformat =0

3、腾讯开源WMT2025冠军方案翻译模型

https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

奖励函数，解决机器翻译输出语义多样难评估、术语捕捉不足、训练后期输出重复等问题。

开源地址：https://github.com/Tencent-Hunyuan/Hunyuan-MT，https://huggingface.co/tencent/Hunyuan-MT-7B

在线体验：https://hunyuan.tencent.com/modelSquare/home/list

包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera

奖励函数：

（1）Quality-Aware Reward质量感知奖励（XCOMET-XXL、DeepSeek-V3-0324评分）

XCOMET-XXL评分：
- 基于预训练的跨语言语义理解模型XCOMET-XXL（https://huggingface.co/Unbabel/XCOMET-XXL）
- 通过对比"模型生成译文" 与 "参考译文"的语义相似度、句法合理性、文化适配性，输出0-1的量化评分（评分越高，质量越优）。
DeepSeek-V3-0324评分：
- 通过特定提示引导模型对译文的 "准确性"（是否忠实原文）、"流畅度"（语法是否自然）、"完整性"（是否遗漏核心信息）进行分项打分，再综合为最终奖励值。
- 这个借助改编自GEMBA框架(GEMBA，GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4，GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4，https://arxiv.org/pdf/2310.13988)的提示模板。

（2）Terminology-Aware Reward术语感知奖励（TAT-R1的词对齐机制）

采用TAT-R1(https://arxiv.org/pdf/2505.21172,TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment)的思路，使用无监督词对齐工具SimAlign，从平行语料中提取源文本、参考译文、模型预测译文间的词级对应关系；
结合命名实体识别筛选名词类关键术语，然后采用类似于对比 "模型生成译文" 与 "术语库"，计算两者的术语重叠率（即生成译文中正确翻译的术语数量占参考术语总数的比例）。

（3）Repetition Penalty重复惩罚

若检测到重复模式，根据重复频率和长度扣除对应奖励（重复越严重，惩罚越高），倒逼模型生成多样化输出。

4、agent数据合成场景

【Agent数据合成进展】讲的故事是-现有基于大模型（LLM）的搜索智能体多采用实体中心合成数据训练，但主流训练方法（如GRPO）仅依赖稀疏的"结果导向型奖励"，丢弃了合成数据中的实体信息。并且无法区分"近失样本"（推理过程基本正确但最终答案错误）与完全失败样本，浪费了学习信号，导致奖励稀疏问题，所以有这个工作：

Repurposing Synthetic Data for Fine-grained Search Agent Supervision，

http://arxiv.org/pdf/2510.24694v1，https://tongyi-agent.github.io/blog，https://github.com/Alibaba-NLP/DeepResearch

搞了个实证分析表明智能体推理过程中识别的真实实体数量（实体匹配率）与最终答案准确率呈强正相关，实体可作为细粒度监督信号的有效代理。

核心看几点。

1)核心思路，复用合成数据生成过程中被丢弃的真实实体，设计稠密的实体感知奖励函数，为错误样本分配与实体匹配率成正比的部分奖励。

奖励函数定义，正确样本奖励=1；错误样本奖励=α·标准化实体匹配率（α∈[0,1]，平衡准确率与实体匹配权重）；格式错误/超长篇幅样本奖励=0。

3)训练方式，先通过1.1万SailorFog-QA样本进行冷启动SFT，再用1千合成样本进行RL训练（保留实体信息用于E-GRPO），基于Qwen2.5-7B/30B。

4)结果，在单跳QA（NQ、TriviaQA等）、多跳QA（HotpotQA、MuSiQue等）及深度研究基准（GAIA、BrowseComp等）数据集上，对比基线GRPO（核心基线）、ReAct类智能体（如R1-Searcher-7B）、先进闭源模型（OpenAI-o3、Claude-4-Sonnet等）有明显收益。

二、如何设计奖励函数

1、Unsloth训练框架官方文档：reward function没有标准做法，但要有意义

There's no single correct way to design reward functions or verifiers - the possibilities are endless.

However, they must be well-designed and meaningful, as poorly crafted rewards can unintentionally degrade model performance.

https://docs.unsloth.ai/get-started/reinforcement-learning-rl-guide

2、阶梯分值有用，GRPO类算法是计算组相对优势，组内分数有差异更能体现这个阶梯分数价值，给出合理的奖励信号，如果相等为1错误为0，对于错误的response直接为0，奖励稀疏。

但很多论文会直接给出奖励函数（甚至不给奖励函数具体怎么做），但目前都没看到有贴出奖励函数层面的某项的消融实验。

Reference

1\] [WMT2025翻译模型冠军思路-多维度视角下的强化学习奖励信号设计及多步骤训练](https://mp.weixin.qq.com/s/pI7NIgjjUEXjWgUChskNng?scene=1) \[2\] [GRPO强化学习训练翻译模型的奖励函数设计](https://mp.weixin.qq.com/s/8ABI3IJB-3bItJjUk4n_sA) \[3\] [InternLM2 RLHF 技术解读（一）：奖励模型理论篇](https://mp.weixin.qq.com/s/gosBAgtEi4bb9_JJ6rRbdQ) \[4\] [InternLM2 RLHF 技术解读（二）：奖励函数篇](https://mp.weixin.qq.com/s/0wBmEfJbmpBfsyTsmnGy5w) \[5\] [Lilian Weng万字长文：强化学习中的Reward Hacking](https://mp.weixin.qq.com/s/iSsvwj5BjBgrXfWxy0_EVw) \[6\] [强化学习《奖励函数设计: Reward Shaping》详细解读.网易伏羲实验室](https://mp.weixin.qq.com/s/tv8Tq9hIsll9_aPGUKI8qQ)