rlvr

山顶夕景4 天前
大模型·llm·蒸馏·rlvr·opd·opsd
【LLM】On-Policy Distillation Survery链接:https://arxiv.org/pdf/2604.00626f-散度最小化:OPD方法将训练过程重新组织为围绕学生采样的轨迹进行优化,目标是减少复合误差,使其线性化。公式如下: L O P D ( θ ) = E y ∼ π mix [ ∑ t = 1 ∣ y ∣ D f ( p T ( ⋅ ∣ x , y < t ) , p θ ( ⋅ ∣ x , y < t ) ) ] \mathcal{L}_{OPD}(\theta) = E_{y \sim \pi_{\text{mix}}} \left
亚里随笔5 个月前
人工智能·深度学习·机器学习·llm·agentic·rlvr
相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题在大型语言模型的后训练时代,强化学习从验证者奖励(RLVR)已成为提升模型推理能力的核心范式。以GRPO为代表的群体相对算法因其无需训练评判网络的简洁设计而备受青睐。然而,本文揭示了这一方法中一个被长期忽视的根本性问题:群体相对优势估计存在系统性偏差。本文不仅提供了首个理论分析,证明该估计器对困难问题会系统性低估优势、对简单问题会过度估计优势,还提出了基于历史感知的自适应难度加权(HA-DW)方案来纠正这一偏差。实验表明,该方法在多个数学推理基准上持续提升性能,为RLVR训练提供了新的理论见解和实践指导。
缘友一世5 个月前
llm·rl·gspo·rlvr
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
阿杰学AI6 个月前
人工智能·ai·语言模型·自然语言处理·aigc·rlvr·基于可验证奖励的强化学习
AI核心知识64——大语言模型之RLVR (简洁且通俗易懂版)RLVR 是 Reinforcement Learning via Verifiable Rewards(基于可验证奖励的强化学习)的缩写。
山顶夕景7 个月前
深度学习·llm·强化学习·rlvr
【RL】Does RLVR enable LLMs to self-improve?论文:Does RLVR enable LLMs to self-improve?(1)可验证奖励:首先,定义了一个LLM生成序列 y = ( y 1 , … , y T ) y = (y_1, \ldots, y_T) y=(y1,…,yT),并引入一个确定性验证器 V \mathcal{V} V,返回二进制奖励 r ∈ { 0 , 1 } r \in \{0, 1\} r∈{0,1},其中 r = 1 r = 1 r=1 当且仅当模型的最终答案完全正确。
我是有底线的