强化学习

香芋Yu21 小时前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu1 天前
强化学习·时序差分学习
【强化学习教程——01_强化学习基石】第05章_时序差分学习本章目标:理解时序差分 (TD) 学习如何结合蒙特卡洛 (MC) 和动态规划 (DP) 的优点,掌握 TD(0) 算法、n-step TD 以及 TD( λ \lambda λ) 与资格迹的概念,深入理解偏差-方差权衡。
悠哉悠哉愿意1 天前
笔记·学习·交互·强化学习
【强化学习学习笔记】马尔科夫决策过程本博客是本人的学习笔记,不是教学或经验分享,全部资料基于北京邮电大学鲁鹏老师课程强化学习基础 (本科生课程) 北京邮电大学 鲁鹏_哔哩哔哩_bilibili,侵权即删。
码农小韩2 天前
人工智能·python·深度学习·agent·强化学习
AIAgent应用开发——DeepSeek分析(一)【项目起源与目标】DeepSeek是中国团队研发的大语言模型项目,旨在打造开源、强大且易用的AI工具,类以ChatGPT或Gemini,寓意通过深度学习探索智能边界。
香芋Yu3 天前
强化学习·rl·mdp
【强化学习教程——01_强化学习基石】第01章_MDP马尔可夫决策过程本章目标:理解强化学习的基本框架,掌握 MDP 五元组的数学定义,区分回报与奖励,并学会使用 OpenAI Gym 风格接口定义环境。
kkkkkkkkk_12013 天前
笔记·深度学习·学习·强化学习
【强化学习】09周博磊强化学习纲要学习笔记——第五课上今日课程提纲: 各位同学大家好,我们开始第四课下半段的内容,我们讨论了如何用函数近似来拟合我们的价值函数。接下来我将给大家介绍如何用非线性函数来拟合我们的价值函数。
宁远x3 天前
人工智能·深度学习·强化学习
【VeRL】Qwen3-30B-A3B-DAPO NPU实践指导作者:昇腾实战派 知识地图链接:【强化学习】知识地图-CSDN博客在大模型训练过程中,如何高效利用NPU硬件资源并保证训练稳定性是开发者面临的重要挑战。本文基于实际项目经验,分享了在NPU环境下使用VLLM+FSDP后端进行Qwen3-30B模型DAPO训练的完整实践方案。通过详细的版本配置、核心参数调优和部署指导,为开发者提供了一套可复现的高效训练方案。
文艺倾年3 天前
人工智能·软件工程·强化学习·vibecoding
【免训练&测试时扩展】Code Agent可控进化😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、智能体、强化学习等相关领域,期待与你一同探索、学习、进步,一起卷起来叭! 🚩Paper:Controlled Self-Evolution for Algorithmic Code Optimization 💭开源代码:https://github.com/QuantaAlpha/EvoControl 💻时间:202601 💭推荐指数:🌟🌟🌟🌟🌟
kkkkkkkkk_12014 天前
笔记·学习·强化学习
【强化学习】08周博磊强化学习纲要学习笔记——第四课下今日课程提纲: 今天是第四课,我将给大家介绍价值函数的近似,首先介绍价值函数近似的基本原理,价值函数近似如何在prediction,就是给定一个策略函数,如何去估计它的价值。另外会分析价值函数性是如何在控制里面的应用。最后分析非常有名的这个deep q network在atari游戏里面是如何应用的。
deephub4 天前
人工智能·microsoft·langchain·大语言模型·agent·强化学习
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用Agent 搭建起来之后怎么让它真正变得越来越好?搭建完成后的优化就很少有人认真说过。Agent Lightning 号称能把任何 AI Agent 变成"可优化的猛兽",而且几乎不用改代码。那问题来了,市面上 Agent 框架满天飞这个凭什么就不一样呢?
weisian1516 天前
人工智能·机器学习·监督学习·强化学习·无监督学习
进阶篇-机器学习篇-1--机器学习入门:什么是机器学习?它如何让机器“学会”思考?作者:Weisian 发布时间:2026年2月10日 机器学习(Machine Learning, ML)不是让机器“编程”,而是让机器从数据中学习,自动掌握完成任务的规律。
小宋加油啊8 天前
强化学习
闭环最优控制问题(强化学习)问题本质:根据实时监测到的状态(熔池、温度等),动态调整激光功率、扫描速度、送粉率等参数,以补偿扰动、防止缺陷产生。
大傻^11 天前
强化学习·grpo
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案传统PPO(Proximal Policy Optimization)在LLM微调中存在显存占用高、价值函数估计不准等问题。本方案采用GRPO算法,其核心优势包括:
m0_6501082411 天前
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案在端到端自动驾驶(E2E-AD)领域,模仿学习(IL)长期占据主流地位,但始终受困于因果混淆、分布偏移等核心问题,难以应对复杂动态的真实驾驶场景。强化学习(RL)虽能通过奖励驱动的环境交互优化策略,展现出超越模仿学习的潜力,却因训练难度高、数据效率低等问题,未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案,创新性地设计了基于双流模型的强化学习(MBRL)架构,首次实现了基于原始传感器输入的端到端强化学习自动驾驶,并在 CARLA v2 和 Bench2D
Sherlock Ma12 天前
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
强化学习入门(2):DQN、Reinforce、AC、PPODQN(Deep Q-Network)是一种将深度学习与强化学习中的Q-learning算法相结合的方法,用于解决高维状态空间下的决策问题。DQN能够在诸如Atari游戏等复杂任务中取得人类水平甚至超越人类的表现,成为深度强化学习发展中的一个重要里程碑。
一颗小树x12 天前
微调·强化学习·vla·流匹配·πrl
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLAπRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。核心解决 “对数似然计算难” 和 “探索性不足” 两大问题:
一颗小树x13 天前
强化学习·rl·vla·simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战:
蓝海星梦13 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著提升了训练效率。然而,随着研究的深入,GRPO 在理论严谨性、训练稳定性和能力边界等维度暴露出关键局限:一方面,长度归一化与标准差除法引入系统性偏差;另一方面,高方差梯度估计与脆弱的优势计算制约了大规模训练的稳定性。
蓝海星梦13 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进——裁剪机制篇Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著降低了训练成本。然而,随着推理任务复杂度的提升,GRPO 在长链推理场景下暴露出熵崩溃、训练不稳定、探索效率低等关键问题。
蓝海星梦13 天前
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析在强化学习(RL)领域中,GRPO(Group Relative Policy Optimization)是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计,显著降低了传统 PPO 的计算开销。在近年来的研究中,GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作(按照时间排序,欢迎补充),之后进行逐一解析。