rl

具身智能之心2 天前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。
亚里随笔3 天前
人工智能·深度学习·机器学习·llm·rl·agentic
STAgent:专为时空推理设计的智能代理模型在现实世界的复杂任务中,如旅行规划、路线优化和地点推荐等,需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型,通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方,在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B,通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。
iiiiii117 天前
人工智能·学习·机器学习·强化学习·rl
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一TD(λ) 是时序差分学习与资格迹结合的统一算法,通过参数 λ ∈ [ 0 , 1 ] λ∈[0,1] λ∈[0,1] 实现 单步 TD(0) 与 蒙特卡洛方法 的连续插值。它提供两种等价的实现视角:前向视图(理论分析)和后向视图(在线实现)。
牛奶咖啡.8549 天前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
亚里随笔10 天前
深度学习·llm·rl·agentic·grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
小喵要摸鱼14 天前
强化学习·rl·q-learning
Q-learning 算法 —— 无模型(model-free)强化学习眼里没有对纪念日的专属感言,只有对优质内容诞生的渴望!!!1989 年,Christopher J. C. H. Watkins 在其博士论文中系统提出并分析了 Q-learning 算法, 开创 无模型(model-free)强化学习 理论体系,为智能体在 未知环境 中通过试错交互直接学习最优状态-动作价值函数。
亚里随笔17 天前
人工智能·深度学习·机器学习·语言模型·llm·rl
简约而不简单:JustRL如何用最简RL方案实现1.5B模型突破性性能当整个强化学习领域都在追求复杂化时,一篇来自清华大学的论文提出了一个颠覆性的问题:这些复杂性真的必要吗?JustRL以一种极简的单阶段训练方法,在两个1.5B参数的推理模型上实现了当前最佳性能,同时仅使用复杂方法一半的计算资源。这项研究不仅挑战了现有的RL训练范式,更为整个领域提供了一个经过验证的简单基线。
一个处女座的程序猿19 天前
rl
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
五月底_21 天前
人工智能·深度学习·nlp·rl·grpo
GRPO参数详解actor_rollout.ref.rollout.n对于每个提示,采样 n 次。默认值为 1。对于 GRPO,请将其设置为大于 1 的值以进行分组采样。
亚里随笔1 个月前
人工智能·语言模型·自然语言处理·llm·rl·agentic
推理语言模型训练策略的协同作用:预训练、中间训练与强化学习的交互机制近年来,强化学习技术在语言模型推理能力提升方面取得了显著进展,但后训练是否真正扩展了模型在预训练期间获得的推理能力仍存在争议。这项研究通过完全可控的实验框架,揭示了预训练、中间训练和强化学习后训练之间的因果贡献关系,为理解推理语言模型训练策略提供了重要基础。
赋范大模型技术社区1 个月前
大模型·微调·sft·模型训练·rl
大模型训练的“最后一公里”:为什么强化学习(RL)不可或缺?训练一个出色的大语言模型(LLM),如同培养一个孩子从呱呱坠地到成长为社会精英,需要经历循序渐进的几个核心阶段。我们可以将其类比为一个人的成长历程:
山顶夕景2 个月前
llm·强化学习·rl·dpo
【RL-LLM】Self-Rewarding Language ModelsSelf-Rewarding Language Models这篇论文提出了自我奖励的语言模型来解决超人类智能代理的问题。具体来说,
山顶夕景2 个月前
大模型·llm·强化学习·rl
【RL】ORPO: Monolithic Preference Optimization without Reference ModelL ORPO = E ( x , y w , y l ) [ L SFT + λ ⋅ L OR ] \mathcal{L}_{\text{ORPO}} = \mathbb{E}_{(x, y_w, y_l)} \left[ \mathcal{L}_{\text{SFT}} + \lambda \cdot \mathcal{L}_{\text{OR}} \right] LORPO=E(x,yw,yl)[LSFT+λ⋅LOR]
山顶夕景2 个月前
llm·强化学习·rl·奖励函数·reward
【RLVR】GRPO中奖励函数的设计逻辑1、DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 奖励函数:
Scc_hy3 个月前
人工智能·深度学习·算法·强化学习·rl
强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluationpaper Link: Eligibility Traces for Off-Policy Policy Evaluation
songyuc4 个月前
rl
Simulations RL 平台学习笔记
xwz小王子4 个月前
rl
Science Robotics 丰田研究院提出通过示例引导RL的全身丰富接触操作学习方法人类表现出非凡的能力,可以利用末端执行器(手)的灵巧性、全身参与以及与环境的交互(例如支撑)来纵各种大小和形状的物体。 人类灵活性的分类法包括精细和粗略的作技能。尽管前者(精细灵巧性)已在机器人技术中得到广泛研究,但粗大灵活性是一个探索较少的领域。人类和其他灵长类动物的粗大运动技能涉及通过激活包括手臂、躯干和腿在内的大肌肉群来锻炼整个身体。这些技能使人类能够实现日常功能,例如携带杂货袋、在客厅里移动沙发、重新调整沉重的罐子的方向以及抱婴儿(即使是在猩猩的情况下爬树)。在机器人技术领域,长期以来一直在努力复
仙人掌_lz8 个月前
人工智能·python·算法·ai·强化学习·rl·mcts
深入理解蒙特卡洛树搜索(MCTS):python从零实现虽然许多强化学习算法直接从经验中学习策略或价值函数(无模型),但还有一种强大的方法涉及规划。规划方法使用环境的模型(可以是预先已知的,也可以是学习得到的)来模拟未来可能性,并据此做出明智的决策。蒙特卡洛树搜索(MCTS)是一种非常成功的规划算法,它能够智能地探索从当前状态出发的潜在未来轨迹。
仙人掌_lz8 个月前
python·算法·强化学习·rl·价值函数
深度理解用于多智能体强化学习的单调价值函数分解QMIX算法:基于python从零实现在合作式多智能体强化学习(MARL)中,多个智能体携手合作,共同达成一个目标,通常会收到一个团队共享的奖励。在这种场景下,一个关键的挑战就是功劳分配:一个单独的智能体如何仅凭全局奖励信号来判断自己对团队成功或失败的贡献呢?简单的独立学习方法(比如每个智能体都运行 DQN)往往行不通,因为它把其他智能体当作了非静态环境的一部分,而且在功劳分配上也搞不定。
仙人掌_lz8 个月前
python·算法·强化学习·策略梯度·rl
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现多智能体强化学习(MARL)将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争,或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。