强化学习

山顶夕景3 天前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
一颗小树x6 天前
强化学习·训练·vla·π0·π0.5
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA本文分享使用 RLinf 框架对 π₀ 和π₀.₅ 进行强化学习微调。支持PPO和GRPO等强化学习算法。
码农小韩7 天前
人工智能·python·深度学习·agent·强化学习·deepseek
AIAgent应用开发——DeepSeek分析(二)【冷启动微调】冷启动微调是DeepSeek训l练的第一步,使用少量高质量数据,引导模型掌握基本推理逻辑。
香芋Yu8 天前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu8 天前
强化学习·时序差分学习
【强化学习教程——01_强化学习基石】第05章_时序差分学习本章目标:理解时序差分 (TD) 学习如何结合蒙特卡洛 (MC) 和动态规划 (DP) 的优点,掌握 TD(0) 算法、n-step TD 以及 TD( λ \lambda λ) 与资格迹的概念,深入理解偏差-方差权衡。
悠哉悠哉愿意8 天前
笔记·学习·交互·强化学习
【强化学习学习笔记】马尔科夫决策过程本博客是本人的学习笔记,不是教学或经验分享,全部资料基于北京邮电大学鲁鹏老师课程强化学习基础 (本科生课程) 北京邮电大学 鲁鹏_哔哩哔哩_bilibili,侵权即删。
码农小韩9 天前
人工智能·python·深度学习·agent·强化学习
AIAgent应用开发——DeepSeek分析(一)【项目起源与目标】DeepSeek是中国团队研发的大语言模型项目,旨在打造开源、强大且易用的AI工具,类以ChatGPT或Gemini,寓意通过深度学习探索智能边界。
香芋Yu10 天前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
kkkkkkkkk_120110 天前
笔记·深度学习·学习·强化学习
【强化学习】09周博磊强化学习纲要学习笔记——第五课上今日课程提纲: 各位同学大家好,我们开始第四课下半段的内容,我们讨论了如何用函数近似来拟合我们的价值函数。接下来我将给大家介绍如何用非线性函数来拟合我们的价值函数。
宁远x10 天前
人工智能·深度学习·强化学习
【VeRL】Qwen3-30B-A3B-DAPO NPU实践指导作者:昇腾实战派 知识地图链接:【强化学习】知识地图-CSDN博客在大模型训练过程中,如何高效利用NPU硬件资源并保证训练稳定性是开发者面临的重要挑战。本文基于实际项目经验,分享了在NPU环境下使用VLLM+FSDP后端进行Qwen3-30B模型DAPO训练的完整实践方案。通过详细的版本配置、核心参数调优和部署指导,为开发者提供了一套可复现的高效训练方案。
文艺倾年10 天前
人工智能·软件工程·强化学习·vibecoding
【免训练&测试时扩展】Code Agent可控进化😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、智能体、强化学习等相关领域,期待与你一同探索、学习、进步,一起卷起来叭! 🚩Paper:Controlled Self-Evolution for Algorithmic Code Optimization 💭开源代码:https://github.com/QuantaAlpha/EvoControl 💻时间:202601 💭推荐指数:🌟🌟🌟🌟🌟
kkkkkkkkk_120111 天前
笔记·学习·强化学习
【强化学习】08周博磊强化学习纲要学习笔记——第四课下今日课程提纲: 今天是第四课,我将给大家介绍价值函数的近似,首先介绍价值函数近似的基本原理,价值函数近似如何在prediction,就是给定一个策略函数,如何去估计它的价值。另外会分析价值函数性是如何在控制里面的应用。最后分析非常有名的这个deep q network在atari游戏里面是如何应用的。
deephub11 天前
人工智能·microsoft·langchain·大语言模型·agent·强化学习
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用Agent 搭建起来之后怎么让它真正变得越来越好?搭建完成后的优化就很少有人认真说过。Agent Lightning 号称能把任何 AI Agent 变成"可优化的猛兽",而且几乎不用改代码。那问题来了,市面上 Agent 框架满天飞这个凭什么就不一样呢?
weisian15113 天前
人工智能·机器学习·监督学习·强化学习·无监督学习
进阶篇-机器学习篇-1--机器学习入门:什么是机器学习?它如何让机器“学会”思考?作者:Weisian 发布时间:2026年2月10日 机器学习(Machine Learning, ML)不是让机器“编程”,而是让机器从数据中学习,自动掌握完成任务的规律。
小宋加油啊15 天前
强化学习
闭环最优控制问题(强化学习)问题本质:根据实时监测到的状态(熔池、温度等),动态调整激光功率、扫描速度、送粉率等参数,以补偿扰动、防止缺陷产生。
大傻^18 天前
强化学习·grpo
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案传统PPO(Proximal Policy Optimization)在LLM微调中存在显存占用高、价值函数估计不准等问题。本方案采用GRPO算法,其核心优势包括:
m0_6501082418 天前
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案在端到端自动驾驶(E2E-AD)领域,模仿学习(IL)长期占据主流地位,但始终受困于因果混淆、分布偏移等核心问题,难以应对复杂动态的真实驾驶场景。强化学习(RL)虽能通过奖励驱动的环境交互优化策略,展现出超越模仿学习的潜力,却因训练难度高、数据效率低等问题,未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案,创新性地设计了基于双流模型的强化学习(MBRL)架构,首次实现了基于原始传感器输入的端到端强化学习自动驾驶,并在 CARLA v2 和 Bench2D
Sherlock Ma19 天前
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
强化学习入门(2):DQN、Reinforce、AC、PPODQN(Deep Q-Network)是一种将深度学习与强化学习中的Q-learning算法相结合的方法,用于解决高维状态空间下的决策问题。DQN能够在诸如Atari游戏等复杂任务中取得人类水平甚至超越人类的表现,成为深度强化学习发展中的一个重要里程碑。
一颗小树x19 天前
微调·强化学习·vla·流匹配·πrl
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLAπRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。核心解决 “对数似然计算难” 和 “探索性不足” 两大问题:
一颗小树x20 天前
强化学习·rl·vla·simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战: