note
- 只要有足够好的验证奖励方式(不管是模型,还是规则,还是环境),很多用监督学习做的任务(不限于大模型)都值得用监督学习+RLVR再做一遍。
- 翻译大模型DeepTrans的奖励函数:格式reward、思考链reward、翻译质量reward
- Reward Shaping = 让奖励更"有梯度",让奖励从稀疏变成密集、有层次,从而引导模型更快收敛,防止一点错误就reward为0导致奖励稀疏。
文章目录
一、GRPO中常见的奖励函数设计
1、DeepSeek-R1(数学推理)
1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
奖励函数:
- 格式正确性:如思考链在
<think>和</think>之间等 - 内容正确性:可行性验证,数学运算/代码运行正确等
2、DeepTrans(翻译)
翻译大模型(wechat微信)DeepTrans: Deep Reasoning Translation via Reinforcement Learning
https://arxiv.org/pdf/2504.10187v2
1、格式reward

2、思考质量reward
作用:避免模型"跳过推理直接翻译",确保推理过程对翻译质量有实际指导意义(尤其针对文学翻译中的隐喻、文化背景)。
r thought = { 2 if v 3 th ( s r c , think ) = detailed analysis 1 if v 3 th ( s r c , think ) = slight analysis 0 if v 3 th ( s r c , think ) = a lack of analysis r_{\text {thought }}= \begin{cases}2 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { detailed analysis } \\ 1 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { slight analysis } \\ 0 & \text { if } \mathrm{v} 3^{\text {th }}(\mathrm{src}, \text { think })=\text { a lack of analysis }\end{cases} rthought =⎩ ⎨ ⎧210 if v3th (src, think )= detailed analysis if v3th (src, think )= slight analysis if v3th (src, think )= a lack of analysis

3、翻译质量reward
作用:评估译文的流畅性、语义准确性、文学性(针对文学翻译场景),通过DeepSeek-v3按 100分制 评分,评分标准细化为5个梯度,每个梯度对应明确的质量要求。

最终得分的计算方式:
r all = { 0 if r format = 0 r trans + α × r thought if r format ≠ 0 r_{\text {all }}= \begin{cases}0 & \text { if } r_{\text {format }}=0 \\ r_{\text {trans }}+\alpha \times r_{\text {thought }} & \text { if } r_{\text {format }} \neq 0\end{cases} rall ={0rtrans +α×rthought if rformat =0 if rformat =0
3、腾讯开源WMT2025冠军方案翻译模型
https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf
奖励函数,解决机器翻译输出语义多样难评估、术语捕捉不足、训练后期输出重复等问题。
开源地址:https://github.com/Tencent-Hunyuan/Hunyuan-MT,https://huggingface.co/tencent/Hunyuan-MT-7B
在线体验:https://hunyuan.tencent.com/modelSquare/home/list
包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera
奖励函数:
(1)Quality-Aware Reward质量感知奖励(XCOMET-XXL、DeepSeek-V3-0324评分)
-
XCOMET-XXL评分:
- 基于预训练的跨语言语义理解模型XCOMET-XXL(https://huggingface.co/Unbabel/XCOMET-XXL)
- 通过对比"模型生成译文" 与 "参考译文"的语义相似度、句法合理性、文化适配性,输出0-1的量化评分(评分越高,质量越优)。
-
DeepSeek-V3-0324评分:
- 通过特定提示引导模型对译文的 "准确性"(是否忠实原文)、"流畅度"(语法是否自然)、"完整性"(是否遗漏核心信息)进行分项打分,再综合为最终奖励值。
- 这个借助改编自GEMBA框架(GEMBA,GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4,GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4,https://arxiv.org/pdf/2310.13988)的提示模板。
(2)Terminology-Aware Reward术语感知奖励(TAT-R1的词对齐机制)
- 采用TAT-R1(https://arxiv.org/pdf/2505.21172,TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment)的思路,使用无监督词对齐工具SimAlign,从平行语料中提取源文本、参考译文、模型预测译文间的词级对应关系;
- 结合命名实体识别筛选名词类关键术语,然后采用类似于对比 "模型生成译文" 与 "术语库",计算两者的术语重叠率(即生成译文中正确翻译的术语数量占参考术语总数的比例)。
(3)Repetition Penalty重复惩罚
若检测到重复模式,根据重复频率和长度扣除对应奖励(重复越严重,惩罚越高),倒逼模型生成多样化输出。
4、agent数据合成场景
【Agent数据合成进展】讲的故事是-现有基于大模型(LLM)的搜索智能体多采用实体中心合成数据训练,但主流训练方法(如GRPO)仅依赖稀疏的"结果导向型奖励",丢弃了合成数据中的实体信息。并且无法区分"近失样本"(推理过程基本正确但最终答案错误)与完全失败样本,浪费了学习信号,导致奖励稀疏问题,所以有这个工作:
Repurposing Synthetic Data for Fine-grained Search Agent Supervision,
搞了个实证分析表明智能体推理过程中识别的真实实体数量(实体匹配率) 与最终答案准确率呈强正相关,实体可作为细粒度监督信号的有效代理。
核心看几点。
1)核心思路,复用合成数据生成过程中被丢弃的真实实体,设计稠密的实体感知奖励函数,为错误样本分配与实体匹配率成正比的部分奖励。
- 奖励函数定义,正确样本奖励=1;错误样本奖励=α·标准化实体匹配率(α∈[0,1],平衡准确率与实体匹配权重);格式错误/超长篇幅样本奖励=0。
3)训练方式,先通过1.1万SailorFog-QA样本进行冷启动SFT,再用1千合成样本进行RL训练(保留实体信息用于E-GRPO),基于Qwen2.5-7B/30B。
4)结果,在单跳QA(NQ、TriviaQA等)、多跳QA(HotpotQA、MuSiQue等)及深度研究基准(GAIA、BrowseComp等)数据集上, 对比基线GRPO(核心基线)、ReAct类智能体(如R1-Searcher-7B)、先进闭源模型(OpenAI-o3、Claude-4-Sonnet等)有明显收益。
二、如何设计奖励函数
1、Unsloth训练框架官方文档:reward function没有标准做法,但要有意义
There's no single correct way to design reward functions or verifiers - the possibilities are endless.
However, they must be well-designed and meaningful, as poorly crafted rewards can unintentionally degrade model performance.
https://docs.unsloth.ai/get-started/reinforcement-learning-rl-guide
2、阶梯分值有用,GRPO类算法是计算组相对优势,组内分数有差异更能体现这个阶梯分数价值,给出合理的奖励信号,如果相等为1错误为0,对于错误的response直接为0,奖励稀疏。
但很多论文会直接给出奖励函数(甚至不给奖励函数具体怎么做),但目前都没看到有贴出奖励函数层面的某项的消融实验。
Reference
1\] [WMT2025翻译模型冠军思路-多维度视角下的强化学习奖励信号设计及多步骤训练](https://mp.weixin.qq.com/s/pI7NIgjjUEXjWgUChskNng?scene=1) \[2\] [GRPO强化学习训练翻译模型的奖励函数设计](https://mp.weixin.qq.com/s/8ABI3IJB-3bItJjUk4n_sA) \[3\] [InternLM2 RLHF 技术解读(一):奖励模型理论篇](https://mp.weixin.qq.com/s/gosBAgtEi4bb9_JJ6rRbdQ) \[4\] [InternLM2 RLHF 技术解读(二):奖励函数篇](https://mp.weixin.qq.com/s/0wBmEfJbmpBfsyTsmnGy5w) \[5\] [Lilian Weng万字长文:强化学习中的Reward Hacking](https://mp.weixin.qq.com/s/iSsvwj5BjBgrXfWxy0_EVw) \[6\] [强化学习《奖励函数设计: Reward Shaping》详细解读.网易伏羲实验室](https://mp.weixin.qq.com/s/tv8Tq9hIsll9_aPGUKI8qQ)