技术栈
grpo
码农垦荒笔记
10 天前
人工智能
·
强化学习
·
grpo
·
dapo
LLM 后训练革命:GRPO、DAPO 与 RLVR 如何替代 RLHF 重塑大模型对齐训练
据 llm-stats.com 2026 年 3 月 11 日发布的综述《Post-Training in 2026: GRPO, DAPO, RLVR & Beyond》,过去 12 个月发布的每个主要模型——从 DeepSeek-R1 到 Nemotron 3 Super 再到 GPT-5.3 Codex——都使用了不同的后训练技术栈。RLHF(基于人类反馈的强化学习)的标准配方已经「死了」。
威化饼的一隅
11 天前
大模型
·
llm
·
agent
·
强化学习
·
智能体
·
grpo
【大模型LLM学习】从强化学习到GRPO【下】
在策略梯度部分,可以发现,RL和分类问题有一丝相像,RL只是多了一个来自轨迹的奖励分数权重 R ( τ ) R(\tau) R(τ)。在LLM语境里,每一轮游戏可以认为是输入x,输出完整句子 y y y抵达<EOS>。在《On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification》一文中有进一步的说明,并提出了基于此的DFT算法(相比于DFT只改了一行代码,效果比肩GRPO)。
威化饼的一隅
11 天前
大模型
·
llm
·
agent
·
强化学习
·
智能体
·
grpo
【大模型LLM学习】从强化学习到GRPO【上】
强化学习是一个与时间相关的序列决策的问题,基本理论框架通常假设环境是一个马尔可夫决策过程(Markov Decision Process, MDP)。里面涉及到状态、动作、状态转移概率、奖励和奖励折扣因子( S 、 A 、 P 、 R 、 γ S、A、P、R、\gamma S、A、P、R、γ),这5 个合集就构成了强化学习马尔可夫决策过程的五元组:
爱听歌的周童鞋
1 个月前
llm
·
policy gradient
·
assignment
·
grpo
·
cs336
·
experiments
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 5: GRPO
本篇文章记录 CS336 作业 Assignment 5: Alignment 中的 GRPO 作业要求,仅供自己参考😄
缘友一世
2 个月前
grpo
·
easyr1
·
llm rl
Easy R1 训练环境搭建与配置实战指南(GRPO算法)
环境特征总结:
大傻^
2 个月前
强化学习
·
grpo
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案
传统PPO(Proximal Policy Optimization)在LLM微调中存在显存占用高、价值函数估计不准等问题。本方案采用GRPO算法,其核心优势包括:
爱听歌的周童鞋
3 个月前
llm
·
policy gradient
·
grpo
·
cs336
·
baselines
·
advantage funcs
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2
学习斯坦福的 CS336 课程,本篇文章记录课程第十七讲:对齐 - RL(下),记录下个人学习笔记,仅供自己参考😄
亚里随笔
3 个月前
深度学习
·
llm
·
rl
·
agentic
·
grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步
随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
五月底_
4 个月前
人工智能
·
深度学习
·
nlp
·
rl
·
grpo
GRPO参数详解
actor_rollout.ref.rollout.n对于每个提示,采样 n 次。默认值为 1。对于 GRPO,请将其设置为大于 1 的值以进行分组采样。
core512
4 个月前
人工智能
·
算法
·
机器学习
·
deepseek
·
grpo
深度解析DeepSeek-R1中GRPO强化学习算法
GRPO (Generative Reward-Paired Optimization) 是由 DeepSeek (深度求索) 团队在发布 DeepSeek-R1 (DeepSeek-Math) 相关论文时提出的一种新型强化学习(RL)算法。
core512
4 个月前
微调
·
qwen
·
unsloth
·
grpo
【实战】使用 Unsloth 与 GRPO 微调 Qwen2.5 模型
在当前的大模型(LLM)领域,如何让模型具备更强的逻辑推理能力(Chain-of-Thought, CoT)是一个热门话题。DeepSeek-R1 等模型的成功证明了**强化学习(RL)**在提升推理能力方面的巨大潜力。
余俊晖
6 个月前
人工智能
·
算法
·
ocr
·
grpo
RLVR训练多模态文档解析模型-olmOCR 2技术方案(模型、数据和代码均开源)
OLMOCR1.0: allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析往期相关:
marsggbo
6 个月前
llm
·
强化学习
·
ppo
·
dpo
·
grpo
LLM 场景下的强化学习技术扫盲
想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。
songyuc
6 个月前
grpo
DeepSeek-Math 学习笔记
镰刀韭菜
6 个月前
人工智能
·
自然语言处理
·
大语言模型
·
强化学习
·
ppo
·
后训练
·
grpo
【大语言模型】大模型后训练入门指南
这些能力有什么共同点呢?答案是:它们都是在后训练阶段(post-training) 中发展出来的。尽管后训练解锁的能力在几年前看起来几乎像魔法一样,但它获得的关注却远少于 Transformer 架构和预训练的基础内容。
温柔哥`
7 个月前
语言模型
·
自动驾驶
·
agent
·
工具调用
·
grpo
·
强化微调
·
tool call
AgentThink:一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架
AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1 清华大学 2 麦吉尔大学 3 小米公司 4 威斯康星大学麦迪逊分校 arxiv’25’05
陈敬雷-充电了么-CEO兼CTO
8 个月前
人工智能
·
python
·
机器学习
·
chatgpt
·
aigc
·
ppo
·
grpo
强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
木亦汐丫
10 个月前
强化学习
·
tts
·
grpo
·
wer
·
sim
·
文本到语音
·
nar
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
论文地址:https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。 通过将流匹配TTS的确定性输出重新表述为概率高斯分布,我们的方法能够无缝集成强化学习算法。 在预训练期间,我们训练了一个基于概率重新表述的流匹配模型,该模型源自F5-TTS和一个开源数据集。 在随后的强化学习(RL)阶段,我们采用一个由GRPO驱动的增强阶段,该阶段利用双重奖励指标:通过自动语音识别计算的
温柔哥`
10 个月前
vad
·
var
·
视频异常检测
·
grpo
·
视频异常推理
·
推理数据集
·
强化微调
Vad-R1:通过从感知到认知的思维链进行视频异常推理
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought ¹中山大学深圳校区;²哈尔滨工业大学(深圳);³香港理工大学 arxiv’25’05
winner8881
1 年前
人工智能
·
语言模型
·
自然语言处理
·
性能优化
·
deepseek
·
grpo
·
深度求索
DeepSeek-V3 论文解读:大语言模型领域的创新先锋与性能强者
论文链接:DeepSeek-V3 Technical Report在大语言模型(LLMs)的激烈竞争赛道上,开源与闭源模型均在飞速发展,不断突破性能极限。DeepSeek-V3的诞生,犹如一颗璀璨新星,照亮了开源模型的前行之路。它拥有高达 671B 的总参数,在每次处理令牌时激活 37B 参数,以强大的姿态跻身前沿模型行列。其训练成本效益显著,仅需 2.788M H800 GPU 小时的总训练时长,折合 557.6 万美元,却在多个关键领域展现出惊人的实力,成为当前开源模型中的佼佼者,有力地推动了自然语言