grpo

RLVR训练多模态文档解析模型-olmOCR 2技术方案（模型、数据和代码均开源）OLMOCR1.0： allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析往期相关：

LLM 场景下的强化学习技术扫盲想象你正在和一个刚训练好的语言模型聊天。你问：“今天过得怎么样？” 模型可能回：“还行。” 也可能回：“我是个 AI，没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习（RL）在 LLM 中的核心任务，就是让模型学会生成“人类更喜欢”的回复。

DeepSeek-Math 学习笔记

【大语言模型】大模型后训练入门指南这些能力有什么共同点呢？答案是：它们都是在后训练阶段（post-training）中发展出来的。尽管后训练解锁的能力在几年前看起来几乎像魔法一样，但它获得的关注却远少于 Transformer 架构和预训练的基础内容。

AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1 清华大学 2 麦吉尔大学 3 小米公司 4 威斯康星大学麦迪逊分校 arxiv’25’05

陈敬雷-充电了么-CEO兼CTO

强化学习三巨头PK：PPO、GRPO、DPO谁是大模型训练的「王炸」？注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

【TTS】基于GRPO的流匹配文本到语音改进：F5R-TTS论文地址：https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS，这是一种新颖的文本到语音(TTS)系统，它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。通过将流匹配TTS的确定性输出重新表述为概率高斯分布，我们的方法能够无缝集成强化学习算法。在预训练期间，我们训练了一个基于概率重新表述的流匹配模型，该模型源自F5-TTS和一个开源数据集。在随后的强化学习(RL)阶段，我们采用一个由GRPO驱动的增强阶段，该阶段利用双重奖励指标：通过自动语音识别计算的

Vad-R1：通过从感知到认知的思维链进行视频异常推理Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought ¹中山大学深圳校区；²哈尔滨工业大学（深圳）；³香港理工大学 arxiv’25’05

DeepSeek-V3 论文解读：大语言模型领域的创新先锋与性能强者论文链接：DeepSeek-V3 Technical Report在大语言模型（LLMs）的激烈竞争赛道上，开源与闭源模型均在飞速发展，不断突破性能极限。DeepSeek-V3的诞生，犹如一颗璀璨新星，照亮了开源模型的前行之路。它拥有高达 671B 的总参数，在每次处理令牌时激活 37B 参数，以强大的姿态跻身前沿模型行列。其训练成本效益显著，仅需 2.788M H800 GPU 小时的总训练时长，折合 557.6 万美元，却在多个关键领域展现出惊人的实力，成为当前开源模型中的佼佼者，有力地推动了自然语言

聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型首发自个人公众号：阿郎小哥的随笔驿站DeepSeek R1系列建议阅读之前的系列文章：聊聊DeepSeek R1的一些总结

我是有底线的