One-rec强化学习部分

技术选型逻辑 ：采用在线策略强化学习（on-policy RL） 而非离线 RL，核心原因是：生成式物品空间是动态的（模型生成的物品可能是未曝光过的新物品），on-policy RL 能基于当前模型生成的物品与用户实时交互反馈（奖励）更新策略，确保奖励信号与模型生成行为强关联，避免离线 RL 的 "策略偏差" 问题。
核心目标：通过 RL 奖励信号，让模型从 "拟合既有曝光分布" 转向 "主动探索用户真实偏好"，突破传统推荐的局限。

核心创新：

从 "被动拟合" 到 "主动探索"：模型不再局限于学习传统系统的曝光物品分布，而是通过实时奖励信号主动探索用户未被满足的偏好；
奖励设计兼顾 "精准性" 与 "实用性"：三类奖励分别覆盖 "用户偏好""格式合规""业务需求"，确保模型生成的内容既符合用户兴趣，又能落地于实际工业场景；
衔接生成式架构：RL 在 "生成式物品空间" 中训练，与 OneRec 的端到端生成范式完美适配，实现 "预训练拟合基础分布→RL 对齐真实偏好" 的两阶段优化，最终突破传统推荐的性能天花板。

2.4.1 用户偏好对齐

在推荐系统中，"优质推荐"的定义远比判断数学解的正确性复杂。传统方法（Chang等人，2023；Wang等人，2024）通常定义多目标（如点击、点赞、评论、观看时长），并通过各目标预测值（x_tr）的加权融合得到综合分数。然而，手动调整融合权重不仅缺乏准确性且难以个性化，往往导致目标间的优化冲突。

为突破这些局限，我们提出使用神经网络学习个性化融合分数------称为P-Score（偏好分数）（Cao等人，2025）。该模型整体框架如图5（中）所示：底层架构基于搜索兴趣模型（SIM）（Pi等人，2020），包含多个分别学习特定目标的塔式网络。训练时这些塔网络通过相应目标标签计算二元交叉熵（BCE）损失作为辅助任务；各塔的隐藏状态与用户/项目表征共同输入最终层的多层感知机（MLP），经由单一输出塔生成P-Score，并使用全目标标签计算二元交叉熵损失。（所有目标融合的标签）

该方法使模型能接收特定用户信息并自适应调整其偏好分数，且不会损害其他用户体验。相比此前无差别的加权求和，该方法更易实现帕累托优化。因此，我们将此方法获得的P-Score作为偏好对齐的奖励信号。

作为 RL 的偏好奖励，既解决了传统 RL 奖励 "单一化、无差别" 的缺陷，又与 OneRec 的端到端生成架构、多模态表征完美衔接，最终推动模型突破传统推荐的性能天花板。

Early Clipped GRPO

对GRPO（群组策略相对优化）（Liu等人，2024）进行了改进以提升训练稳定性（如图6所示）。原始GRPO允许负优势函数对应较大的策略比率（𝜋𝜃/𝜋𝜃𝑜𝑙𝑑），这易导致梯度爆炸。因此，我们预先对高比率策略进行裁剪：在保证训练稳定性的同时，仍使相应负优势函数发挥作用。𝛿值越大，可容忍的策略比率范围越大，即可承受的梯度变化范围越大。该参数可根据实际需求调整------在OneRec中我们设置𝛿=0.1，这意味着允许负优势函数对应的策略比率略微超过1+𝜖。我们移除了KL散度损失项，因为OneRec中强化学习（RL）与监督微调（SFT）采用联合训练方式，SFT损失足以确保模型稳定性。

2.4.2. Generation Format Regularization

在生成式推荐中，合法率指生成的语义ID序列可被映射至实际项目ID的比例。该指标对评估生成稳定性至关重要。实践中，语义ID序列的基数远大于视频项目总数，这种设计既确保全覆盖所有项目，又通过扩展词汇表引入更多参数以获得更好性能。但这也可能导致推理过程中生成无对应项目ID的语义ID序列，即产生非法生成现象。

引入基于ECPO的强化学习会显著增加非法输出的生成。最新研究（Ren and Sutherland, 2024）表明，这是由于负优势函数引发的压缩效应所致。如图7所示：预训练模型已学会生成绝大多数合法标记，加入强化学习后，𝐴 > 0的项目仅会轻微调整概率分布；而当施加𝐴 < 0的项目时，模型会将大部分概率质量压缩到当前认为的最优输出𝑜∗上，导致部分合法标记的概率被压缩至与非法标记相当的水平，从而使模型难以区分合法标记。

为解决此问题，我们提出在强化学习中引入格式奖励机制以促进合法生成。具体而言，从𝐺个样本中随机选择𝐾个样本进行合法性强化学习：对合法样本设置优势函数值为1，对非法样本直接丢弃以避免挤压效应。优势函数定义如下：

优化目标形式与ECPO保持一致（见公式29），并直接使用𝐴𝑖作为优势函数值。

不使用p_score了？

训练流程：

采用on-policy的强化学习范式

线上生成item的用户交互反馈应该已经有真实的reward值（停留时长，点赞等），为什么还要使用模型输出的p-score？

核心原因是真实反馈存在多目标冲突、缺乏个性化、存在滞后性等缺陷，而 P - Score 能通过个性化融合、噪声过滤等解决这些问题

1.P - Score 基于 SIM 多目标模型构建，能学习每个用户的偏好特征，将点击、停留、点赞等指标的隐状态与用户、物品特征融合，输出个性化综合分数。例如对喜欢深度内容的用户，会给完播率高的 item 更高权重；对喜欢轻松短视频的用户，会侧重点击和点赞指标，这种个性化融合比固定权重的真实反馈更贴合 "用户真实满意度"。

2.真实反馈的数值尺度差异大（如停留时长可能是秒级，点赞是 0 - 1 值），直接使用会导致梯度更新失衡；而 P - Score 经过模型输出的归一化处理，数值分布更稳定

3.对于新生成的小众或长尾 item，往往缺乏足够的真实用户反馈，此时直接用真实反馈会因数据不足无法准确评估其价值。而 P - Score 的偏好模型基于海量历史数据训练，学习了不同类型 item 与用户的匹配规律。即便某个长尾 item 无太多交互数据，模型也能依据相似 item 的偏好模式、用户的历史偏好，给出合理的评估分数，从而支持对长尾 item 的推荐优化，突破真实反馈依赖大量历史数据的局限。

2.4.3 工业场景对齐

在工业场景中，推荐系统不仅需要考虑用户偏好，还需兼顾多方面因素。以快手平台为例，需要统筹视频社区生态建设、商业化需求以及冷启动和长尾视频的分发。传统推荐系统尝试在推荐流程的某个阶段通过算法或策略解决这些问题，但由于不同阶段之间存在不一致性，容易导致意外问题交替出现的循环困境。工程师被迫通过不断打补丁的方式进行调整，久而久之造成系统臃肿，阻碍迭代进程。

在OneRec框架中，我们只需将优化目标纳入奖励系统，并采用强化学习进行针对性优化。这种方法不仅便捷，还能实现端到端的优化过程，保持系统一致性。我们将在4.3.3节提供具体的优化实践案例。

模型关键参数：

OneRec系列包含四个推荐任务专用模型（两个稠密模型与两个MoE变体），其层数、隐藏维度、注意力头数等关键架构超参数详见表1。这些模型的编码器与解码器层数保持一致：

对于稠密变体，标准前馈网络（FFN）通常将隐藏维度扩展至𝑑ff = 2×𝑑model
对于MoE变体，我们在指定区块中用MoE层替代标准FFN，并采用SwiGLU前馈网络（Shazeer, 2020; Thoppilan et al., 2022）作为专家网络
遵循开源MoE大语言模型设置（Fedus et al., 2022; Jiang et al., 2024），每个SwiGLU专家的隐藏维度按公式2/3×4×𝑑model计算，并确保为128的倍数

Post-training

在后训练阶段，我们采用实时数据流进行在线训练，同步执行拒绝采样微调（RSFT）与强化学习（RL）：

RSFT处理 ：基于播放时长筛选后50%的曝光会话数据，训练损失函数与预训练阶段的损失保持一致，但采用退火策略------稀疏参数学习率降至1×10⁻⁴，稠密参数学习率降至8×10⁻⁵
RL处理：从RSFT数据中随机选取1%用户生成RL样本

为最大化计算资源利用率，我们通过外部推理服务实现RL样本生成与训练过程的解耦：

训练期间1%用户访问外部服务生成512个推荐项
向奖励模型请求每个推荐项的奖励值
将数据回传至训练任务
训练任务每1000步通过消息队列（MQ）向外部推理服务发送更新参数

4.2. Scaling

4.2.1. Training Scaling

parameters scaling：

更大的模型有更低的训练loss。采用loss-free load balancing strategy来保证专家利用平衡，loss降低了0.2.

除参数量扩展外，我们基于0.935B模型进行了多维度扩展实验，以验证其他关键维度扩展的有效性：

特征扩展：探究全面特征工程的影响
码本扩展：研究词汇表规模扩增的效果
推理扩展：分析束搜索参数的影响

FeatureScaling:

基线配置：仅使用256个正向反馈项目的视频ID（vid）嵌入
增强配置：融入方法论章节所述的完整特征集

如图10和表2所示，采用增强特征配置的模型实现了更低的训练损失，并在推荐质量的多个维度上取得显著提升。（有哪些特征？）

码本扩展

为探究码本规模对模型性能的影响，我们将码本大小从8,192扩展至32,768进行实验。需特别注意：如参数扩展实验所定义，NTP损失在此不可直接比较------因为码本扩增本质上扩大了交叉熵损失的候选集，直接比较损失值会产生误导。因此我们采用基于奖励的指标进行评估，各指标性能提升如表3所示。结果表明：扩大码本规模可显著提升播放时长类指标，并在交互类指标上获得小幅改善。

推理扩展

我们研究了推理过程中生成数量（Pass@K）对模型性能的影响。如表4所示，将K值从8增至512时，所有评估指标均呈现持续提升；但当K从512继续增至1,024时，仅带来边际收益。综合考虑性能提升与计算资源消耗的权衡，我们选择K=512作为生产环境部署参数。

Pass@K 不是 "同时展示 K 个视频"，而是离线评估模型生成 K 个候选时的 "有效命中率" 指标；

K 的取值反映模型对 "精准度" 和 "覆盖度" 的权衡，会间接指导线上展示策略（如少候选精准生成适配单屏播放，多候选覆盖适配多卡片展示）；

4.3 强化学习

4.3.1 用户偏好对齐

定义"优质推荐"始终是推荐系统的核心挑战。为严格验证强化学习的效果，我们采用单目标观看率（vtr）作为奖励信号，该指标对应线上观看时长和应用停留时长等核心指标。实验结果均以快手传统推荐系统为基线（标注为总体基线），表格中的"相对提升率"指实验组相对于对照组的提升幅度。

值得注意的是，虽然使用vtr作为奖励能显著提升时长类指标，但这并不完全等同于高质量推荐------其他指标如代表视频观看数量的"视频观看量"可能出现显著下降。我们重点聚焦观看时长和应用停留时长来寻找最优RL配置，并最终借此验证P-Score奖励的优势。

采样效率

强化学习通过优化采样项的概率分布来提高高奖励项的选中概率，从而显著提升采样效率。为量化该效果，我们在pass@32、pass@128和pass@512三个采样点进行实验（结果汇总于表6）。以未使用RL的模型为基线，将应用停留时长的提升幅度定义为采样效率差距。值得注意的是，RL在pass@32处显示出最大的提升差距，这表明排名靠前项的准确率得到显著增强。这种提升对降低采样开销至关重要，因其能确保在少量采样时仍保持高精度。在需要平衡成本与收益的推荐系统中，较低采样数𝐾下的精度提升为实现这种平衡提供了坚实基础。

这里的 pass@32 特指：
**系统为每位用户一次性地生成 32 个候选推荐视频，然后判断这 32 个视频里是否至少有一个是能带来高奖励（如高观看时长）的"好推荐"。是衡量模型"能否用较少的尝试次数就命中目标"的关键指标，**而实验结果表明强化学习极大地提升了模型的这一能力。

Search Space

在ECPO训练中，扩大动作探索空间（每次搜索的候选空间还是RL训练过程中的RL组大小）能增加发现具有最大奖励的最优项目的概率，但也会带来更高的计算成本。为研究这种权衡关系，我们分析了探索空间大小（即组大小）对性能的影响（结果汇总于表7）。从表中可观察到，当组大小从128增至512时，性能实现显著提升，这充分证明了扩大探索空间的积极影响。令人稍感遗憾的是，将探索空间进一步扩大至2048并未带来更多收益，这可能是由于当前参考模型的多样性不足以发现更多优质项目。尽管如此，该发现仍具积极意义，我们根据实证经验建议将ECPO训练组大小设置为推理输出数量的四倍左右，以获得最佳效果。

Search Strategy

revealing that beam search significantly outperforms top-𝑘 and top-𝑝sampling in OneRec's reinforcement learning framework（这种改进源于语义ID结构的内在规律性，它遵循前缀树编码方案，因此与波束搜索的系统探索非常一致。）

P-Score奖励

本节观察了使用P-Score作为奖励时，强化学习带来的综合性提升。基于上述消融实验结论，我们选择最优RL配置：采用束搜索生成RL样本，并使用当前策略模型作为参考模型。我们在快手和快手极速版两个场景中验证RL效果，结果汇总于表1。从数据可得结论：在两个场景中，P-Score均在提升应用停留时长和观看时长的同时，增加了视频观看量，这表明整体用户推荐体验获得了显著提升。（与前文介绍reward会造成id无法映射回item，不矛盾吗？）

4.3.2 生成格式规范化

本节通过实验验证格式奖励的有效性。如第2.4.2节所述，在预训练模型中引入强化学习后，由于挤压效应的影响，输出合法率显著下降至50%以下------这意味着超过半数生成的语义ID无法对应实际视频ID，严重损害了推荐稳定性与推理可扩展性。

我们通过对比两种计算格式损失的样本选择方法来评估格式奖励的效果：(RL训练过程中计算格式奖励（format reward），需要从模型生成的一批样本（例如128个）中选择一部分样本（例如5个）来进行奖励计算和模型更新)。

（1）从128个生成候选中选择概率最高的前5个样本（Top-k选择）；

（2）随机选择5个样本（随机选择）。

图12展示了两种方法对输出合法率的影响。左图显示所有128个生成样本的合法率变化，右图则聚焦被选中样本的表现。未使用格式奖励时，基线合法率始终低于50%。Top-k选择呈现出有趣模式：虽然整体合法率呈现先升后降趋势，但被选中样本的合法率迅速达到100%，表明模型学会了仅在排名靠前的子集中生成合法输出。相比之下，随机选择虽然设置了更加困难的学习目标，但推动了稳定改进------最终达到95%的合法率且未出现下降趋势。

值得关注的是，格式奖励的收益不仅限于合法率提升。在线指标同样实现显著增长：应用停留时长提升0.13%，观看时长增加0.30%。本实验不仅验证了格式奖励机制的有效性，更凸显了精心设计奖励函数在强化学习系统中的关键作用。这个实验完美印证了论文的核心观点：在RL系统中，奖励设计比算法选择更重要. 这个实验不仅验证了技术方案的有效性，更重要的是揭示了在复杂AI系统中，评估和优化策略需要保持一致性的深刻原则。

随机策略的全面学习优势:

'抗过拟合': '模型无法预测哪些样本会被检查，必须保证所有输出合法',

'均匀学习': '所有生成区域都得到平等关注',

'稳健泛化': '学到的合法性知识分布更均匀'

从正则化视角看：

Top-k ：相当于L0正则化，只约束部分输出
随机选择 ：相当于L2正则化，平滑约束所有输出

问题：

P-Score模型底层的这些塔网络是单独训练的还是和P-socre联合训练的？

应该是联合的

OneRec中强化学习（RL）与监督微调（SFT）采用联合训练方式，SFT损失足以确保模型稳定性。？

拒绝采样是什么？：https://blog.csdn.net/yinyu19950811/article/details/153313703?spm=1001.2014.3001.5502

利用视频语义标识符表示用户交互历史，而非为视频标识符（vid）构建独立的稀疏嵌入？怎么做到的？是否可能扩展到路线场景