技术栈

PPO和GRPO面经

饮哉2026-01-04 16:28

这个写的不错,记录一下

上一篇:NCCL通信C++示例(一): 基础用例解读与运行
下一篇:素数对 与 不吉利日期
相关推荐
人工智能培训
3 天前
企业如何安全、私密地部署大模型?
人工智能·深度学习·安全·大模型·知识图谱·强化学习·大模型工程师
盼小辉丶
3 天前
PyTorch实战(24)——深度强化学习
pytorch·深度学习·强化学习
2401_84149564
3 天前
【强化学习】DQN 改进算法
人工智能·python·深度学习·强化学习·dqn·double dqn·dueling dqn
Struart_R
4 天前
VideoLLM相关论文(二)
计算机视觉·大语言模型·强化学习·多模态·r1
啊阿狸不会拉杆
4 天前
《机器学习》第六章-强化学习
人工智能·算法·机器学习·ai·机器人·强化学习·ml
蓝海星梦
4 天前
【强化学习】深度解析 GSPO:解决 GRPO 中优化目标与奖励不匹配的问题
论文阅读·人工智能·自然语言处理·大语言模型·强化学习
镰刀韭菜
5 天前
【LLM】一文理解推理大模型
大语言模型·强化学习·知识蒸馏·指令微调·deepseek·推理模型·旅程式学习
victory0431
6 天前
强化学习核心路线总结
强化学习
AI-Frontiers
6 天前
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
强化学习
Code-world-1
7 天前
NVIDIA Isaac Sim 安装教程
linux·人工智能·ubuntu·强化学习·isaac sim
热门推荐
01GitHub 镜像站点02OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)03Claude Code Skills 实用使用手册04Open Code教程(四)| 高级配置与集成05UV安装并设置国内源06Linux下V2Ray安装配置指南07在VSCode配置Java开发环境的保姆级教程(适配各类AI编程IDE)08AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南09Labelme从安装到标注:零基础完整指南10安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)