技术栈
PPO和GRPO面经
饮哉
2026-01-04 16:28
这个写的不错,记录一下
强化学习
上一篇:
NCCL通信C++示例(一): 基础用例解读与运行
下一篇:
素数对 与 不吉利日期
相关推荐
指掀涛澜天下惊
13 天前
AI 基础知识十九 强化学习前言
人工智能
·
机器学习
·
强化学习
劈星斩月
14 天前
机器学习之 定义与三大范式
人工智能
·
机器学习
·
监督学习
·
强化学习
·
无监督学习
文艺倾年
14 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能
·
分布式
·
大模型
·
强化学习
·
vibecoding
盼小辉丶
14 天前
PyTorch强化学习实战(14)——优先经验回放机制
pytorch
·
python
·
深度学习
·
强化学习
文艺倾年
15 天前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能
·
软件工程
·
强化学习
happyprince
15 天前
07_verl-Trainer模块详解
人工智能
·
架构
·
wpf
·
强化学习
chen_zn95
16 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能
·
强化学习
·
具身智能
·
vla
happyprince
16 天前
08_verl-Workers模块详解
人工智能
·
架构
·
强化学习
happyprince
16 天前
02_verl-代码目录结构详解
人工智能
·
架构
·
强化学习
happyprince
17 天前
10_verl-Rollout模块详解
人工智能
·
架构
·
强化学习
热门推荐
01
2026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?
02
2026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?
03
2026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf
04
Trae国际版与国内版深度测评:AI原生IDE的双生花
05
【AI】2026 年具身智能模型和世界模型总结
06
飞书长连接_事件订阅(接收消息,审批任务状态变更)
07
Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析
08
GitHub 镜像站点
09
2026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?
10
2026年AI架构实战:彻底解决OpenAI接口超时与封号,Python调用GPT-5.2/Sora2企业级架构详解(附源码+压测报告)