【RL】Does RLVR enable LLMs to self-improve?论文:Does RLVR enable LLMs to self-improve?(1)可验证奖励:首先,定义了一个LLM生成序列 y = ( y 1 , … , y T ) y = (y_1, \ldots, y_T) y=(y1,…,yT),并引入一个确定性验证器 V \mathcal{V} V,返回二进制奖励 r ∈ { 0 , 1 } r \in \{0, 1\} r∈{0,1},其中 r = 1 r = 1 r=1 当且仅当模型的最终答案完全正确。