rl

山顶夕景7 天前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
香芋Yu12 天前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu14 天前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
亚里随笔19 天前
人工智能·学习·llm·rl·agentic
GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解在当今数字化时代,GUI智能体(Graphical User Interface Agents)能够通过自然语言指令在各类数字应用中执行操作,为用户提供极大便利。然而,现实世界的数字环境是不断变化的——新的操作系统版本发布、平台间切换、设备升级带来分辨率变化等。这些变化会导致在静态环境中训练的智能体性能显著下降。本文介绍的GUI-AiF框架是首个针对GUI智能体的持续学习框架,通过创新性的奖励机制使智能体能够在动态变化的GUI环境中保持稳定性能,为解决这一关键问题提供了突破性方案。
一颗小树x25 天前
强化学习·rl·vla·simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战:
亚里随笔1 个月前
人工智能·分布式·llm·rl·agentic
MegaFlow:面向Agent时代的大规模分布式编排系统随着交互式和自主AI系统的快速发展,我们正步入Agent时代。在软件工程和计算机使用等复杂任务上训练智能体,不仅需要高效的模型计算能力,更需要能够协调大量Agent-环境交互的复杂基础设施。MegaFlow作为大规模分布式编排系统,为Agent训练工作负载提供高效的调度、资源分配和细粒度任务管理能力,成功实现了数万个并发Agent任务的协调执行,同时保持高系统稳定性和高效的资源利用率。
山顶夕景1 个月前
大模型·llm·强化学习·rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
X.Cristiano1 个月前
rl·verl
VERL源码解读 &实操笔记自2025年初DeepSeek R1模型发布以来,强化学习(RL)在大型语言模型(LLM)的后训练范式中受到越来越多的关注,R1的突破性在于引入了可验证奖励强化学习(RLVR),通过构建数学题、代码谜题等自动验证环境,使模型在客观奖励信号的驱动下,自发地演化出与人类推理策略高度相似的思维方式。
亚里随笔1 个月前
人工智能·深度学习·机器学习·lora·rl
超越LoRA:参数高效强化学习方法的全面评估与突破随着大语言模型在数学推理等复杂任务中展现出卓越能力,基于可验证奖励的强化学习(RLVR)已成为进一步提升模型推理能力的主流范式。然而,面对计算资源密集的RL训练,如何选择最优的参数高效方法成为关键问题。本文首次对12种PEFT方法在RLVR场景下进行了系统性评估,挑战了默认使用标准LoRA的惯例,揭示了结构变体、SVD初始化策略和表达性下限等重要发现。
蜡笔小新..1 个月前
人工智能·强化学习·rl
从零学习 RL :初识强化学习已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。
缘友一世2 个月前
llm·rl·gspo·rlvr
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
亚里随笔2 个月前
人工智能·游戏·llm·rl·agentic
GenEnv:让AI智能体像人一样在_游戏_中成长GenEnv框架通过在LLM智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈,实现了数据效率的显著提升。该框架将智能体训练视为一个两玩家课程游戏,通过动态调整任务难度来最大化学习信号,使7B参数模型在多个基准测试中性能提升高达40.3%。
具身智能之心2 个月前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。
亚里随笔2 个月前
人工智能·深度学习·机器学习·llm·rl·agentic
STAgent:专为时空推理设计的智能代理模型在现实世界的复杂任务中,如旅行规划、路线优化和地点推荐等,需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型,通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方,在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B,通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。
iiiiii112 个月前
人工智能·学习·机器学习·强化学习·rl
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一TD(λ) 是时序差分学习与资格迹结合的统一算法,通过参数 λ ∈ [ 0 , 1 ] λ∈[0,1] λ∈[0,1] 实现 单步 TD(0) 与 蒙特卡洛方法 的连续插值。它提供两种等价的实现视角:前向视图(理论分析)和后向视图(在线实现)。
牛奶咖啡.8542 个月前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
亚里随笔2 个月前
深度学习·llm·rl·agentic·grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
小喵要摸鱼2 个月前
强化学习·rl·q-learning
Q-learning 算法 —— 无模型(model-free)强化学习眼里没有对纪念日的专属感言,只有对优质内容诞生的渴望!!!1989 年,Christopher J. C. H. Watkins 在其博士论文中系统提出并分析了 Q-learning 算法, 开创 无模型(model-free)强化学习 理论体系,为智能体在 未知环境 中通过试错交互直接学习最优状态-动作价值函数。
亚里随笔2 个月前
人工智能·深度学习·机器学习·语言模型·llm·rl
简约而不简单:JustRL如何用最简RL方案实现1.5B模型突破性性能当整个强化学习领域都在追求复杂化时,一篇来自清华大学的论文提出了一个颠覆性的问题:这些复杂性真的必要吗?JustRL以一种极简的单阶段训练方法,在两个1.5B参数的推理模型上实现了当前最佳性能,同时仅使用复杂方法一半的计算资源。这项研究不仅挑战了现有的RL训练范式,更为整个领域提供了一个经过验证的简单基线。
一个处女座的程序猿2 个月前
rl
LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读