grpo

木亦汐丫3 天前
强化学习·tts·grpo·wer·sim·文本到语音·nar
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS论文地址:https://arxiv.org/abs/2504.02407v3我们提出了F5R-TTS,这是一种新颖的文本到语音(TTS)系统,它将群体相对策略优化(GRPO)集成到基于流匹配的架构中。 通过将流匹配TTS的确定性输出重新表述为概率高斯分布,我们的方法能够无缝集成强化学习算法。 在预训练期间,我们训练了一个基于概率重新表述的流匹配模型,该模型源自F5-TTS和一个开源数据集。 在随后的强化学习(RL)阶段,我们采用一个由GRPO驱动的增强阶段,该阶段利用双重奖励指标:通过自动语音识别计算的
温柔哥`3 天前
vad·var·视频异常检测·grpo·视频异常推理·推理数据集·强化微调
Vad-R1:通过从感知到认知的思维链进行视频异常推理Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought ¹中山大学深圳校区;²哈尔滨工业大学(深圳);³香港理工大学 arxiv’25’05
winner88814 个月前
人工智能·语言模型·自然语言处理·性能优化·deepseek·grpo·深度求索
DeepSeek-V3 论文解读:大语言模型领域的创新先锋与性能强者论文链接:DeepSeek-V3 Technical Report在大语言模型(LLMs)的激烈竞争赛道上,开源与闭源模型均在飞速发展,不断突破性能极限。DeepSeek-V3的诞生,犹如一颗璀璨新星,照亮了开源模型的前行之路。它拥有高达 671B 的总参数,在每次处理令牌时激活 37B 参数,以强大的姿态跻身前沿模型行列。其训练成本效益显著,仅需 2.788M H800 GPU 小时的总训练时长,折合 557.6 万美元,却在多个关键领域展现出惊人的实力,成为当前开源模型中的佼佼者,有力地推动了自然语言
又见阿郎4 个月前
ai·强化学习·deepseek·grpo
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型首发自个人公众号:阿郎小哥的随笔驿站DeepSeek R1系列建议阅读之前的系列文章:聊聊DeepSeek R1的一些总结