Simulations RL 平台学习笔记

1. 选择标准

1.1 开源项目,🌟star数量越多越好

2. 常见平台

2.1 🌟18.6k ML-Agents:基于Unity实现

2.2 🌟1.2k Godot RL Agents

相关推荐
具身智能之心4 天前
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
rl·vla·3dgs·realsim2real
亚里随笔5 天前
STAgent:专为时空推理设计的智能代理模型
人工智能·深度学习·机器学习·llm·rl·agentic
iiiiii1110 天前
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一
人工智能·学习·机器学习·强化学习·rl
牛奶咖啡.85411 天前
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】
语言模型·llm·llama·rl·ppo
亚里随笔12 天前
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步
深度学习·llm·rl·agentic·grpo
小喵要摸鱼16 天前
Q-learning 算法 —— 无模型(model-free)强化学习
强化学习·rl·q-learning
亚里随笔20 天前
简约而不简单:JustRL如何用最简RL方案实现1.5B模型突破性性能
人工智能·深度学习·机器学习·语言模型·llm·rl
一个处女座的程序猿21 天前
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
rl
五月底_23 天前
GRPO参数详解
人工智能·深度学习·nlp·rl·grpo
亚里随笔1 个月前
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制
人工智能·语言模型·自然语言处理·llm·rl·agentic