技术栈

dapo

litble
5 天前
人工智能·llm·ppo·grpo·gspo·dapo
如何速成LLM以伪装成一个AI研究者(4)——PPO,GRPO,DAPO,GSPO如何速成LLM以伪装成一个AI研究者(1)——循环,卷积,编解码器,注意力,Transformer 如何速成LLM以伪装成一个AI研究者(2)——Pre-LN,KV-Cache优化,MoE 如何速成LLM以伪装成一个AI研究者(3)——预训练,监督微调,强化学习RLHF/DPO
码农垦荒笔记
1 个月前
人工智能·强化学习·grpo·dapo
LLM 后训练革命:GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练据 llm-stats.com 2026 年 3 月 11 日发布的综述《Post-Training in 2026: GRPO, DAPO, RLVR & Beyond》,过去 12 个月发布的每个主要模型——从 DeepSeek-R1 到 Nemotron 3 Super 再到 GPT-5.3 Codex——都使用了不同的后训练技术栈。RLHF(基于人类反馈的强化学习)的标准配方已经「死了」。
山顶夕景
7 个月前
大模型·强化学习·dapo·vapo
【RL】DAPO的后续:VAPO算法VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
我是有底线的