rl

bryant_meng7 天前
人工智能·深度学习·rl·vla·世界模型·vlm
【VLA】Vision Language Action世界模型 是智能体(Agent)内部对环境动态(dynamics)的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作,环境会如何变化”。
山顶夕景8 天前
大模型·强化学习·图像生成·rl·agentic
【MLLM】GraphWalker:Deepresearch用于图像生成【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen
传说故事16 天前
论文阅读·人工智能·具身智能·rl
【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models在大型视觉-语言-动作模型(VLA)里插一个专门的“RL Token”来提取特征,让机器人只需在线练习几小时就能掌握拧螺丝、插线等极高难度的微操。
亚里随笔1 个月前
人工智能·学习·llm·rl·agentic
OpenClaw-RL:让AI Agent在对话中自主学习进化想象一下,你的AI助手每与你互动一次,就自动变得更懂你的偏好——无需额外标注,无需人工干预,仅仅是"在使用中学习"。这正是OpenClaw-RL带来的突破性范式:将每一次对话的"下一状态信号"转化为实时在线学习源,实现Agent的持续进化。
山顶夕景2 个月前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
香芋Yu2 个月前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu2 个月前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
亚里随笔2 个月前
人工智能·学习·llm·rl·agentic
GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解在当今数字化时代,GUI智能体(Graphical User Interface Agents)能够通过自然语言指令在各类数字应用中执行操作,为用户提供极大便利。然而,现实世界的数字环境是不断变化的——新的操作系统版本发布、平台间切换、设备升级带来分辨率变化等。这些变化会导致在静态环境中训练的智能体性能显著下降。本文介绍的GUI-AiF框架是首个针对GUI智能体的持续学习框架,通过创新性的奖励机制使智能体能够在动态变化的GUI环境中保持稳定性能,为解决这一关键问题提供了突破性方案。
一颗小树x2 个月前
强化学习·rl·vla·simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战:
亚里随笔2 个月前
人工智能·分布式·llm·rl·agentic
MegaFlow:面向Agent时代的大规模分布式编排系统随着交互式和自主AI系统的快速发展,我们正步入Agent时代。在软件工程和计算机使用等复杂任务上训练智能体,不仅需要高效的模型计算能力,更需要能够协调大量Agent-环境交互的复杂基础设施。MegaFlow作为大规模分布式编排系统,为Agent训练工作负载提供高效的调度、资源分配和细粒度任务管理能力,成功实现了数万个并发Agent任务的协调执行,同时保持高系统稳定性和高效的资源利用率。
山顶夕景2 个月前
大模型·llm·强化学习·rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
X.Cristiano2 个月前
rl·verl
VERL源码解读 &实操笔记自2025年初DeepSeek R1模型发布以来,强化学习(RL)在大型语言模型(LLM)的后训练范式中受到越来越多的关注,R1的突破性在于引入了可验证奖励强化学习(RLVR),通过构建数学题、代码谜题等自动验证环境,使模型在客观奖励信号的驱动下,自发地演化出与人类推理策略高度相似的思维方式。
亚里随笔3 个月前
人工智能·深度学习·机器学习·lora·rl
超越LoRA:参数高效强化学习方法的全面评估与突破随着大语言模型在数学推理等复杂任务中展现出卓越能力,基于可验证奖励的强化学习(RLVR)已成为进一步提升模型推理能力的主流范式。然而,面对计算资源密集的RL训练,如何选择最优的参数高效方法成为关键问题。本文首次对12种PEFT方法在RLVR场景下进行了系统性评估,挑战了默认使用标准LoRA的惯例,揭示了结构变体、SVD初始化策略和表达性下限等重要发现。
蜡笔小新..3 个月前
人工智能·强化学习·rl
从零学习 RL :初识强化学习已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。
缘友一世3 个月前
llm·rl·gspo·rlvr
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
亚里随笔3 个月前
人工智能·游戏·llm·rl·agentic
GenEnv:让AI智能体像人一样在_游戏_中成长GenEnv框架通过在LLM智能体与可扩展的生成式环境模拟器之间建立难度对齐的协同进化博弈,实现了数据效率的显著提升。该框架将智能体训练视为一个两玩家课程游戏,通过动态调整任务难度来最大化学习信号,使7B参数模型在多个基准测试中性能提升高达40.3%。
具身智能之心3 个月前
rl·vla·3dgs·realsim2real
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分享。
亚里随笔3 个月前
人工智能·深度学习·机器学习·llm·rl·agentic
STAgent:专为时空推理设计的智能代理模型在现实世界的复杂任务中,如旅行规划、路线优化和地点推荐等,需要模型具备强大的时空理解能力和工具调用能力。本文介绍的STAgent是一种专门为此类任务设计的智能代理模型,通过构建稳定的工具环境、高质量的数据构建框架和级联训练配方,在保持通用能力的同时显著提升了在时空推理任务上的表现。该模型基于Qwen3-30B-A3B,通过三阶段优化流程实现了在TravelBench等基准测试上的优异性能。
iiiiii113 个月前
人工智能·学习·机器学习·强化学习·rl
TD(λ),资格迹(Eligibility Traces)与时序差分学习的统一TD(λ) 是时序差分学习与资格迹结合的统一算法,通过参数 λ ∈ [ 0 , 1 ] λ∈[0,1] λ∈[0,1] 实现 单步 TD(0) 与 蒙特卡洛方法 的连续插值。它提供两种等价的实现视角:前向视图(理论分析)和后向视图(在线实现)。
牛奶咖啡.8543 个月前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练