技术栈

PPO和GRPO面经

饮哉2026-01-04 16:28

这个写的不错,记录一下

上一篇:NCCL通信C++示例(一): 基础用例解读与运行
下一篇:素数对 与 不吉利日期
相关推荐
指掀涛澜天下惊
13 天前
AI 基础知识十九 强化学习前言
人工智能·机器学习·强化学习
劈星斩月
14 天前
机器学习之 定义与三大范式
人工智能·机器学习·监督学习·强化学习·无监督学习
文艺倾年
14 天前
【强化学习】数学推导专题,20W字总结(十五)
人工智能·分布式·大模型·强化学习·vibecoding
盼小辉丶
14 天前
PyTorch强化学习实战(14)——优先经验回放机制
pytorch·python·深度学习·强化学习
文艺倾年
15 天前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
happyprince
15 天前
07_verl-Trainer模块详解
人工智能·架构·wpf·强化学习
chen_zn95
16 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
happyprince
16 天前
08_verl-Workers模块详解
人工智能·架构·强化学习
happyprince
16 天前
02_verl-代码目录结构详解
人工智能·架构·强化学习
happyprince
17 天前
10_verl-Rollout模块详解
人工智能·架构·强化学习
热门推荐
012026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?022026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?032026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf04Trae国际版与国内版深度测评:AI原生IDE的双生花05【AI】2026 年具身智能模型和世界模型总结06飞书长连接_事件订阅(接收消息,审批任务状态变更)07Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析08GitHub 镜像站点092026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?102026年AI架构实战:彻底解决OpenAI接口超时与封号,Python调用GPT-5.2/Sora2企业级架构详解(附源码+压测报告)