PPO和GRPO面经

这个写的不错,记录一下

相关推荐
大傻^3 天前
强化学习与大模型融合:从理论到机器人实践全解析
机器人·llm·大语言模型·强化学习·urdf·ppo·奖励设计
山顶夕景7 天前
【LLM】ROLL团队的Agentic RL训练坑点
大模型·llm·强化学习·rl·agentic rl
一颗小树x11 天前
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA
强化学习·训练·vla·π0·π0.5
码农小韩12 天前
AIAgent应用开发——DeepSeek分析(二)
人工智能·python·深度学习·agent·强化学习·deepseek
香芋Yu13 天前
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA
人工智能·算法·强化学习·rl·sarsa·q-learning
香芋Yu13 天前
【强化学习教程——01_强化学习基石】第05章_时序差分学习
强化学习·时序差分学习
悠哉悠哉愿意13 天前
【强化学习学习笔记】马尔科夫决策过程
笔记·学习·交互·强化学习
码农小韩14 天前
AIAgent应用开发——DeepSeek分析(一)
人工智能·python·深度学习·agent·强化学习
香芋Yu14 天前
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程
强化学习·rl·mdp
kkkkkkkkk_120114 天前
【强化学习】09周博磊强化学习纲要学习笔记——第五课上
笔记·深度学习·学习·强化学习