技术栈
dapo
码农垦荒笔记
4 小时前
人工智能
·
强化学习
·
grpo
·
dapo
LLM 后训练革命:GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练
据 llm-stats.com 2026 年 3 月 11 日发布的综述《Post-Training in 2026: GRPO, DAPO, RLVR & Beyond》,过去 12 个月发布的每个主要模型——从 DeepSeek-R1 到 Nemotron 3 Super 再到 GPT-5.3 Codex——都使用了不同的后训练技术栈。RLHF(基于人类反馈的强化学习)的标准配方已经「死了」。
山顶夕景
5 个月前
大模型
·
强化学习
·
dapo
·
vapo
【RL】DAPO的后续:VAPO算法
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
我是有底线的