强化学习RL实战 01:RoboCup Rescue simulator

相关推荐
牛奶咖啡.8541 天前
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】
语言模型·llm·llama·rl·ppo
昵称已被吞噬~‘(*@﹏@*)’~2 天前
【强化学习】MacOS (M1芯片)上最新版本 MuJoCo 通用安装教程(最简洁),PS:不是 mujoco_py 的老版本
python·macos·机器学习·强化学习·mujoco
core5122 天前
AI 任务分类:人工智能到底能干啥?
人工智能·分类·生成式ai·聚类·强化学习·无监督学习·有监督学习
亚里随笔3 天前
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步
深度学习·llm·rl·agentic·grpo
传说故事3 天前
RL中的reward model、value function 和 advantage function
强化学习
我爱C编程4 天前
基于SARSA强化学习的迷宫路线规划matlab仿真
matlab·强化学习·sarsa·迷宫路线规划
小毅&Nora4 天前
【人工智能】【强化学习】 ① 本年度大模型强化学习算法全景:6种主流算法深度解析
人工智能·强化学习
车队老哥记录生活6 天前
强化学习 RL 基础 3:随机近似方法 | 梯度下降
人工智能·算法·机器学习·强化学习
小喵要摸鱼6 天前
Q-learning 算法 —— 无模型(model-free)强化学习
强化学习·rl·q-learning
小喵要摸鱼7 天前
深度强化学习 Deep Q-learning:把深度学习引入强化学习
深度学习·强化学习