强化学习RL实战 01:RoboCup Rescue simulator

相关推荐
强化学习与机器人控制仿真2 天前
RSL-RL:开源人形机器人强化学习控制研究库
开发语言·人工智能·stm32·神经网络·机器人·强化学习·模仿学习
山顶夕景3 天前
【RL】Does RLVR enable LLMs to self-improve?
深度学习·llm·强化学习·rlvr
神州问学8 天前
「干货长文」强化学习完全指南:从基础MDP到TRPO/PPO/GRPO算法演进
强化学习
九年义务漏网鲨鱼8 天前
【多模态大模型面经】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm
人工智能·深度学习·算法·架构·大模型·强化学习
ModestCoder_9 天前
【学习笔记】Diffusion Policy for Robotics
论文阅读·人工智能·笔记·学习·机器人·强化学习·具身智能
AI-Frontiers9 天前
小白也能看懂的RLHF:基础篇
强化学习
九年义务漏网鲨鱼12 天前
【大模型面经】千问系列专题面经
人工智能·深度学习·算法·大模型·强化学习
山顶夕景12 天前
【RL-LLM】Self-Rewarding Language Models
llm·强化学习·rl·dpo
山顶夕景12 天前
【RL】ORPO: Monolithic Preference Optimization without Reference Model
大模型·llm·强化学习·rl
Philtell14 天前
【强化学习基础概念】
强化学习