Simulations RL 平台学习笔记

1. 选择标准

1.1 开源项目,🌟star数量越多越好

2. 常见平台

2.1 🌟18.6k ML-Agents:基于Unity实现

2.2 🌟1.2k Godot RL Agents

相关推荐
一个处女座的程序猿5 小时前
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
rl
五月底_2 天前
GRPO参数详解
人工智能·深度学习·nlp·rl·grpo
亚里随笔9 天前
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制
人工智能·语言模型·自然语言处理·llm·rl·agentic
赋范大模型技术社区13 天前
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?
大模型·微调·sft·模型训练·rl
山顶夕景1 个月前
【RL-LLM】Self-Rewarding Language Models
llm·强化学习·rl·dpo
山顶夕景1 个月前
【RL】ORPO: Monolithic Preference Optimization without Reference Model
大模型·llm·强化学习·rl
山顶夕景1 个月前
【RLVR】GRPO中奖励函数的设计逻辑
llm·强化学习·rl·奖励函数·reward
Scc_hy2 个月前
强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation
人工智能·深度学习·算法·强化学习·rl
xwz小王子4 个月前
Science Robotics 丰田研究院提出通过示例引导RL的全身丰富接触操作学习方法
rl