技术栈
grpo算法
AIQL
1 天前
人工智能
·
算法
·
机器学习
·
deepseek
·
grpo算法
Deepseek的RL算法GRPO解读
在本文中,我们将深入探讨Deepseek采用的策略优化方法GRPO,并顺带介绍一些强化学习(Reinforcement Learning, RL)的基础知识,包括PPO等关键概念。