dapo

如何速成LLM以伪装成一个AI研究者（4）——PPO，GRPO，DAPO，GSPO如何速成LLM以伪装成一个AI研究者（1）——循环，卷积，编解码器，注意力，Transformer 如何速成LLM以伪装成一个AI研究者（2）——Pre-LN，KV-Cache优化，MoE 如何速成LLM以伪装成一个AI研究者（3）——预训练，监督微调，强化学习RLHF/DPO

码农垦荒笔记

LLM 后训练革命：GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练据 llm-stats.com 2026 年 3 月 11 日发布的综述《Post-Training in 2026: GRPO, DAPO, RLVR & Beyond》，过去 12 个月发布的每个主要模型——从 DeepSeek-R1 到 Nemotron 3 Super 再到 GPT-5.3 Codex——都使用了不同的后训练技术栈。RLHF（基于人类反馈的强化学习）的标准配方已经「死了」。

【RL】DAPO的后续：VAPO算法VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

我是有底线的