PPO和GRPO面经

这个写的不错,记录一下

相关推荐
deephub1 天前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能·大语言模型·强化学习·多智能体
Robot_Nav1 天前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
盼小辉丶2 天前
PyTorch强化学习实战(9)——深度Q学习
pytorch·深度学习·强化学习
我爱C编程3 天前
基于Sarsa强化学习的异构蜂窝网络中基站休眠算法matlab仿真
网络·matlab·强化学习·sarsa·异构蜂窝网络·基站休眠
熊猫钓鱼>_>4 天前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程
盼小辉丶6 天前
PyTorch强化学习实战(8)——Q学习详解与实现
pytorch·深度学习·强化学习
星座5286 天前
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析
人工智能·深度学习·神经网络·transformer·强化学习·目标检测算法
橘白3167 天前
rl笔记(一):策略梯度更新算法推导
人工智能·算法·机器人·强化学习
盼小辉丶9 天前
PyTorch强化学习实战(7)——表格学习与贝尔曼方程
pytorch·深度学习·强化学习
盼小辉丶12 天前
PyTorch强化学习实战——使用交叉熵方法解决 FrozenLake 环境
人工智能·pytorch·python·强化学习