技术栈

PPO和GRPO面经

饮哉2026-01-04 16:28

这个写的不错,记录一下

上一篇:NCCL通信C++示例(一): 基础用例解读与运行
下一篇:素数对 与 不吉利日期
相关推荐
君为先-bey
1 天前
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角
强化学习·扩散模型·opd
盼小辉丶
1 天前
PyTorch强化学习实战(12)——Double DQN(DDQN)
人工智能·pytorch·深度学习·强化学习
亲爱的阿瞎
4 天前
p12 3.3 学习状态值函数_cdn
强化学习
亲爱的阿瞎
4 天前
p09 2.4 random stochastic e_cdn
强化学习
亲爱的阿瞎
5 天前
p08 2.3 贝尔曼方程_cdn
强化学习
盼小辉丶
5 天前
PyTorch强化学习实战(11)——N步DQN(N-step DQN)
pytorch·python·深度学习·强化学习
啵啵鱼爱吃小猫咪
7 天前
示教学习强化学习用的标准数据集
机器人·强化学习·示教学习
SuperHeroWu7
7 天前
【算法】强化学习中奖励和损失函数的关系
算法·环境·强化学习·损失函数·奖励
Agilex松灵机器人
7 天前
松灵技术生态|IsaacLab中实现松灵PIPER机械臂键盘遥操作与数据采集教程
agent·强化学习·仿真·具身智能·skill·松灵机器人
皮皮木子
11 天前
rl_locomotion 编译过程三
编译·强化学习·cmake·蒸馏
热门推荐
01《置身钉内》原文-可播放阅读02GitHub 镜像站点03【AI】2026 年具身智能模型和世界模型总结04Codex 下载安装指南:Windows 和 macOS 官方版下载052026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?062026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf07【踩坑记录 | 第一篇】微软商店无法使用时,如何手动安装 OpenAI Codex?附`.msix`文件系统错误解决方法08AI科技热点日报 | 2026年6月1日09CC-Switch 下载、安装与使用配置指南【2026.5.29】10CC-Switch & Claude 基于 Linux 服务器安装使用指南