相关推荐
具身智能之心4 天前
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?亚里随笔5 天前
STAgent:专为时空推理设计的智能代理模型iiiiii1110 天前
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一牛奶咖啡.85411 天前
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】亚里随笔12 天前
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步小喵要摸鱼16 天前
Q-learning 算法 —— 无模型(model-free)强化学习亚里随笔20 天前
简约而不简单:JustRL如何用最简RL方案实现1.5B模型突破性性能一个处女座的程序猿21 天前
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读五月底_23 天前
GRPO参数详解亚里随笔1 个月前
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制