技术栈
PPO和GRPO面经
饮哉
2026-01-04 16:28
这个写的不错,记录一下
强化学习
上一篇:
NCCL通信C++示例(一): 基础用例解读与运行
下一篇:
素数对 与 不吉利日期
相关推荐
deephub
1 天前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能
·
大语言模型
·
强化学习
·
多智能体
Robot_Nav
1 天前
深度学习与强化学习面试八股文知识点汇总
人工智能
·
深度学习
·
强化学习
盼小辉丶
2 天前
PyTorch强化学习实战(9)——深度Q学习
pytorch
·
深度学习
·
强化学习
我爱C编程
3 天前
基于Sarsa强化学习的异构蜂窝网络中基站休眠算法matlab仿真
网络
·
matlab
·
强化学习
·
sarsa
·
异构蜂窝网络
·
基站休眠
熊猫钓鱼>_>
4 天前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能
·
llm
·
强化学习
·
rl
·
马尔可夫
·
mdp
·
决策过程
盼小辉丶
6 天前
PyTorch强化学习实战(8)——Q学习详解与实现
pytorch
·
深度学习
·
强化学习
星座528
6 天前
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析
人工智能
·
深度学习
·
神经网络
·
transformer
·
强化学习
·
目标检测算法
橘白316
7 天前
rl笔记(一):策略梯度更新算法推导
人工智能
·
算法
·
机器人
·
强化学习
盼小辉丶
9 天前
PyTorch强化学习实战(7)——表格学习与贝尔曼方程
pytorch
·
深度学习
·
强化学习
盼小辉丶
12 天前
PyTorch强化学习实战——使用交叉熵方法解决 FrozenLake 环境
人工智能
·
pytorch
·
python
·
强化学习
热门推荐
01
GitHub 镜像站点
02
Codex 接入 DeepSeek API 完整配置文档
03
CC-Switch & Claude 基于 Linux 服务器安装使用指南
04
用了半年 OpenRouter,我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比
05
几个好用的ip纯净度检测网站
06
裂开!ChatGPT 居然开始要手机号验证,附详细解决方法
07
Gemini大升级、AI眼镜首发、Android XR亮相,13天后见分晓
08
【踩坑记录 | 第一篇】微软商店无法使用时,如何手动安装 OpenAI Codex?附`.msix`文件系统错误解决方法
09
【AI】2026 年具身智能模型和世界模型总结
10
codex app每次打开重连5次Reconnecting问题解决