rl

山顶夕景3 天前
大模型·llm·强化学习·rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
X.Cristiano4 天前
rl·verl
VERL源码解读 &实操笔记自2025年初DeepSeek R1模型发布以来,强化学习(RL)在大型语言模型(LLM)的后训练范式中受到越来越多的关注,R1的突破性在于引入了可验证奖励强化学习(RLVR),通过构建数学题、代码谜题等自动验证环境,使模型在客观奖励信号的驱动下,自发地演化出与人类推理策略高度相似的思维方式。
亚里随笔15 天前
人工智能·深度学习·机器学习·lora·rl
超越LoRA:参数高效强化学习方法的全面评估与突破随着大语言模型在数学推理等复杂任务中展现出卓越能力,基于可验证奖励的强化学习(RLVR)已成为进一步提升模型推理能力的主流范式。然而,面对计算资源密集的RL训练,如何选择最优的参数高效方法成为关键问题。本文首次对12种PEFT方法在RLVR场景下进行了系统性评估,挑战了默认使用标准LoRA的惯例,揭示了结构变体、SVD初始化策略和表达性下限等重要发现。
蜡笔小新..15 天前
人工智能·强化学习·rl
从零学习 RL :初识强化学习已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。
缘友一世16 天前
llm·rl·gspo·rlvr
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
亚里随笔18 天前
人工智能·游戏·llm·rl·agentic
GenEnv:让AI智能体像人一样在_游戏_中成长GenEnv框架通过在LLM智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈,实现了数据效率的显著提升。该框架将智能体训练视为一个两玩家课程游戏,通过动态调整任务难度来最大化学习信号,使7B参数模型在多个基准测试中性能提升高达40.3%。
具身智能之心22 天前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。
亚里随笔23 天前
人工智能·深度学习·机器学习·llm·rl·agentic
STAgent:专为时空推理设计的智能代理模型在现实世界的复杂任务中,如旅行规划、路线优化和地点推荐等,需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型,通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方,在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B,通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。
iiiiii111 个月前
人工智能·学习·机器学习·强化学习·rl
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一TD(λ) 是时序差分学习与资格迹结合的统一算法,通过参数 λ ∈ [ 0 , 1 ] λ∈[0,1] λ∈[0,1] 实现 单步 TD(0) 与 蒙特卡洛方法 的连续插值。它提供两种等价的实现视角:前向视图(理论分析)和后向视图(在线实现)。
牛奶咖啡.8541 个月前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
亚里随笔1 个月前
深度学习·llm·rl·agentic·grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
小喵要摸鱼1 个月前
强化学习·rl·q-learning
Q-learning 算法 —— 无模型(model-free)强化学习眼里没有对纪念日的专属感言,只有对优质内容诞生的渴望!!!1989 年,Christopher J. C. H. Watkins 在其博士论文中系统提出并分析了 Q-learning 算法, 开创 无模型(model-free)强化学习 理论体系,为智能体在 未知环境 中通过试错交互直接学习最优状态-动作价值函数。
亚里随笔1 个月前
人工智能·深度学习·机器学习·语言模型·llm·rl
简约而不简单:JustRL如何用最简RL方案实现1.5B模型突破性性能当整个强化学习领域都在追求复杂化时,一篇来自清华大学的论文提出了一个颠覆性的问题:这些复杂性真的必要吗?JustRL以一种极简的单阶段训练方法,在两个1.5B参数的推理模型上实现了当前最佳性能,同时仅使用复杂方法一半的计算资源。这项研究不仅挑战了现有的RL训练范式,更为整个领域提供了一个经过验证的简单基线。
一个处女座的程序猿1 个月前
rl
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
五月底_1 个月前
人工智能·深度学习·nlp·rl·grpo
GRPO参数详解actor_rollout.ref.rollout.n对于每个提示,采样 n 次。默认值为 1。对于 GRPO,请将其设置为大于 1 的值以进行分组采样。
亚里随笔2 个月前
人工智能·语言模型·自然语言处理·llm·rl·agentic
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制近年来,强化学习技术在语言模型推理能力提升方面取得了显著进展,但后训练是否真正扩展了模型在预训练期间获得的推理能力仍存在争议。这项研究通过完全可控的实验框架,揭示了预训练、中间训练和强化学习后训练之间的因果贡献关系,为理解推理语言模型训练策略提供了重要基础。
赋范大模型技术社区2 个月前
大模型·微调·sft·模型训练·rl
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?训练一个出色的大语言模型(LLM),如同培养一个孩子从呱呱坠地到成长为社会精英,需要经历循序渐进的几个核心阶段。我们可以将其类比为一个人的成长历程:
山顶夕景2 个月前
llm·强化学习·rl·dpo
【RL-LLM】Self-Rewarding Language ModelsSelf-Rewarding Language Models这篇论文提出了自我奖励的语言模型来解决超人类智能代理的问题。具体来说,
山顶夕景2 个月前
大模型·llm·强化学习·rl
【RL】ORPO: Monolithic Preference Optimization without Reference ModelL ORPO = E ( x , y w , y l ) [ L SFT + λ ⋅ L OR ] \mathcal{L}_{\text{ORPO}} = \mathbb{E}_{(x, y_w, y_l)} \left[ \mathcal{L}_{\text{SFT}} + \lambda \cdot \mathcal{L}_{\text{OR}} \right] LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]
山顶夕景3 个月前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数: