rl

非社会人士8 天前
强化学习·rlhf·rl·ppo·verl·infra
RL 系统 Infra 笔记:区分不同模型强化学习系统(RLHF/PPO)Infra 学习笔记,从 Infra 视角梳理各模块职责、数据流与训练循环,持续更新。
Robot_Nav11 天前
rl·learning_based·mppi
RL-Driven MPPI:基于离线策略加速在线控制律计算的模型预测路径积分控制最优控制方法是众多复杂控制与决策任务的核心技术,其目标是通过求解由预设代价函数和系统动力学定义的优化问题,找到最优控制律序列。传统最优控制方法,如线性二次调节器(LQR),在处理线性系统时表现优异,但面对非线性系统时存在明显局限。
大唐荣华15 天前
强化学习·rl·vla
从π到F:分阶段强化学习如何让机器人学会精密装配在具身智能与机器人操作领域,长时序精密装配一直是核心难题——从目标搜索、姿态对齐、稳定抓取到精准插入,任何一环失误都会导致任务失败。传统端到端强化学习常面临样本效率低、任务拆解难、鲁棒性不足的问题,而分阶段策略学习凭借「前向初始化+反向微调」的闭环框架,成为解决复杂操作任务的主流方案。
bryant_meng1 个月前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
山顶夕景1 个月前
大模型·强化学习·图像生成·rl·agentic
【MLLM】GraphWalker:Deepresearch用于图像生成【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen
传说故事1 个月前
论文阅读·人工智能·具身智能·rl
【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models在大型视觉-语言-动作模型(VLA)里插一个专门的“RL Token”来提取特征,让机器人只需在线练习几小时就能掌握拧螺丝、插线等极高难度的微操。
亚里随笔2 个月前
人工智能·学习·llm·rl·agentic
OpenClaw-RL:让AI Agent在对话中自主学习进化想象一下,你的AI助手每与你互动一次,就自动变得更懂你的偏好——无需额外标注,无需人工干预,仅仅是"在使用中学习"。这正是OpenClaw-RL带来的突破性范式:将每一次对话的"下一状态信号"转化为实时在线学习源,实现Agent的持续进化。
山顶夕景2 个月前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
香芋Yu2 个月前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu3 个月前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
亚里随笔3 个月前
人工智能·学习·llm·rl·agentic
GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解在当今数字化时代,GUI智能体(Graphical User Interface Agents)能够通过自然语言指令在各类数字应用中执行操作,为用户提供极大便利。然而,现实世界的数字环境是不断变化的——新的操作系统版本发布、平台间切换、设备升级带来分辨率变化等。这些变化会导致在静态环境中训练的智能体性能显著下降。本文介绍的GUI-AiF框架是首个针对GUI智能体的持续学习框架,通过创新性的奖励机制使智能体能够在动态变化的GUI环境中保持稳定性能,为解决这一关键问题提供了突破性方案。
一颗小树x3 个月前
强化学习·rl·vla·simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战:
亚里随笔3 个月前
人工智能·分布式·llm·rl·agentic
MegaFlow:面向Agent时代的大规模分布式编排系统随着交互式和自主AI系统的快速发展,我们正步入Agent时代。在软件工程和计算机使用等复杂任务上训练智能体,不仅需要高效的模型计算能力,更需要能够协调大量Agent-环境交互的复杂基础设施。MegaFlow作为大规模分布式编排系统,为Agent训练工作负载提供高效的调度、资源分配和细粒度任务管理能力,成功实现了数万个并发Agent任务的协调执行,同时保持高系统稳定性和高效的资源利用率。
山顶夕景3 个月前
大模型·llm·强化学习·rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
X.Cristiano3 个月前
rl·verl
VERL源码解读 &实操笔记自2025年初DeepSeek R1模型发布以来,强化学习(RL)在大型语言模型(LLM)的后训练范式中受到越来越多的关注,R1的突破性在于引入了可验证奖励强化学习(RLVR),通过构建数学题、代码谜题等自动验证环境,使模型在客观奖励信号的驱动下,自发地演化出与人类推理策略高度相似的思维方式。
亚里随笔4 个月前
人工智能·深度学习·机器学习·lora·rl
超越LoRA:参数高效强化学习方法的全面评估与突破随着大语言模型在数学推理等复杂任务中展现出卓越能力,基于可验证奖励的强化学习(RLVR)已成为进一步提升模型推理能力的主流范式。然而,面对计算资源密集的RL训练,如何选择最优的参数高效方法成为关键问题。本文首次对12种PEFT方法在RLVR场景下进行了系统性评估,挑战了默认使用标准LoRA的惯例,揭示了结构变体、SVD初始化策略和表达性下限等重要发现。
蜡笔小新..4 个月前
人工智能·强化学习·rl
从零学习 RL :初识强化学习已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。
缘友一世4 个月前
llm·rl·gspo·rlvr
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
亚里随笔4 个月前
人工智能·游戏·llm·rl·agentic
GenEnv:让AI智能体像人一样在_游戏_中成长GenEnv框架通过在LLM智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈,实现了数据效率的显著提升。该框架将智能体训练视为一个两玩家课程游戏,通过动态调整任务难度来最大化学习信号,使7B参数模型在多个基准测试中性能提升高达40.3%。
具身智能之心4 个月前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。