verl

verl二次开发参考视频：b站--使用verl实现code-r1（agent-rl，verl二次开发）1. 加载模型（无需修改）（verl使用ray进行调度）

非社会人士

RL 系统 Infra 笔记：区分不同模型强化学习系统（RLHF/PPO）Infra 学习笔记，从 Infra 视角梳理各模块职责、数据流与训练循环，持续更新。

非社会人士

verl 中序列长度相关配置梳理：理清数据、Rollout 与 PPO 训练边界在 verl 中，和序列长度相关的配置看起来很多，但本质上都围绕三个问题展开：很多混淆都来自于没有区分这三层边界。比如：

VERL源码解读 &实操笔记自2025年初DeepSeek R1模型发布以来，强化学习（RL）在大型语言模型（LLM）的后训练范式中受到越来越多的关注，R1的突破性在于引入了可验证奖励强化学习（RLVR），通过构建数学题、代码谜题等自动验证环境，使模型在客观奖励信号的驱动下，自发地演化出与人类推理策略高度相似的思维方式。

VeRL：强化学习与大模型训练的高效融合框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

五阿哥爱跳舞

强化学习框架VeRL全面解析(架构、调试、修改与应用）字节系： VeRL CURE（RL for coding)阿里系： ROLL淘天爱橙团队智谱： slime

我是有底线的