技术栈
强化学习
大傻^
1 天前
强化学习
·
grpo
基于群组相对策略优化(GRPO)的大模型强化学习微调技术方案
传统PPO(Proximal Policy Optimization)在LLM微调中存在显存占用高、价值函数估计不准等问题。本方案采用GRPO算法,其核心优势包括:
m0_65010824
2 天前
论文阅读
·
机器人
·
强化学习
·
端到端自动驾驶
·
双流架构
·
引导机制
·
mbrl自动驾驶
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
在端到端自动驾驶(E2E-AD)领域,模仿学习(IL)长期占据主流地位,但始终受困于因果混淆、分布偏移等核心问题,难以应对复杂动态的真实驾驶场景。强化学习(RL)虽能通过奖励驱动的环境交互优化策略,展现出超越模仿学习的潜力,却因训练难度高、数据效率低等问题,未能在端到端自动驾驶中得到有效应用。上海交通大学、复旦大学等团队联合提出的 Raw2Drive 方案,创新性地设计了基于双流模型的强化学习(MBRL)架构,首次实现了基于原始传感器输入的端到端强化学习自动驾驶,并在 CARLA v2 和 Bench2D
Sherlock Ma
3 天前
人工智能
·
深度学习
·
机器学习
·
自然语言处理
·
transformer
·
dnn
·
强化学习
强化学习入门(2):DQN、Reinforce、AC、PPO
DQN(Deep Q-Network)是一种将深度学习与强化学习中的Q-learning算法相结合的方法,用于解决高维状态空间下的决策问题。DQN能够在诸如Atari游戏等复杂任务中取得人类水平甚至超越人类的表现,成为深度强化学习发展中的一个重要里程碑。
一颗小树x
3 天前
微调
·
强化学习
·
vla
·
流匹配
·
πrl
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
πRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。核心解决 “对数似然计算难” 和 “探索性不足” 两大问题:
一颗小树x
4 天前
强化学习
·
rl
·
vla
·
simplevla-rl
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA
本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习 的VLA框架。核心目标*是解决VLA模型面临的两个挑战:
蓝海星梦
4 天前
论文阅读
·
人工智能
·
深度学习
·
算法
·
自然语言处理
·
强化学习
GRPO 算法演进——偏差修正/鲁棒优化/架构扩展篇
Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著提升了训练效率。然而,随着研究的深入,GRPO 在理论严谨性、训练稳定性和能力边界等维度暴露出关键局限:一方面,长度归一化与标准差除法引入系统性偏差;另一方面,高方差梯度估计与脆弱的优势计算制约了大规模训练的稳定性。
蓝海星梦
4 天前
论文阅读
·
人工智能
·
深度学习
·
算法
·
自然语言处理
·
强化学习
GRPO 算法演进——裁剪机制篇
Group Relative Policy Optimization(GRPO)作为大语言模型强化学习的核心算法之一,通过组内相对优势估计消除了对价值网络的依赖,显著降低了训练成本。然而,随着推理任务复杂度的提升,GRPO 在长链推理场景下暴露出熵崩溃、训练不稳定、探索效率低等关键问题。
蓝海星梦
4 天前
论文阅读
·
人工智能
·
深度学习
·
算法
·
自然语言处理
·
强化学习
GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析
在强化学习(RL)领域中,GRPO(Group Relative Policy Optimization)是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计,显著降低了传统 PPO 的计算开销。在近年来的研究中,GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作(按照时间排序,欢迎补充),之后进行逐一解析。
蓝海星梦
4 天前
论文阅读
·
人工智能
·
深度学习
·
算法
·
自然语言处理
·
强化学习
GRPO 算法演进——奖励设计篇
Group Relative Policy Optimization(GRPO)凭借其无需价值网络、组内相对估计的优势,成为大语言模型强化学习的主流范式。然而,随着研究的深入,GRPO 在奖励稀疏性、样本效率、探索-利用平衡等方面的问题逐渐显现。
悠哉悠哉愿意
4 天前
笔记
·
学习
·
强化学习
【强化学习学习笔记】强化学习简介
本博客是本人的学习笔记,不是教学或经验分享,全部资料基于北京邮电大学鲁鹏老师课程强化学习基础 (本科生课程) 北京邮电大学 鲁鹏_哔哩哔哩_bilibili,侵权即删。
boss-dog
5 天前
python
·
强化学习
关于强化学习入门理解和示例
强化学习的三层结构强化学习是Agent在与环境的互动当中为了达成目标而进行的学习过程。强化学习的某个核心问题: exploration(探索):是否有其他更好的行动创造更大价值 exploitation(利用):利用已有价值函数 二者需要平衡
2401_84149564
8 天前
人工智能
·
python
·
算法
·
强化学习
·
reinforce
·
策略梯度
·
蒙特卡洛
【强化学习】REINFORCE 算法
目录一、引言二、REINFORCE 算法的核心定位与关键特性三、REINFORCE 算法的数学基础(通俗推导,贴合代码)
deephub
9 天前
人工智能
·
pytorch
·
深度学习
·
强化学习
让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案
DQN 用计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。
nju_spy
9 天前
人工智能
·
强化学习
·
cvae
·
离线强化学习
·
双 q 学习
·
bcq
·
外推泛化误差
离线强化学习(一)BCQ 批量限制 Q-learning
B站 张伟楠 离线RL动手学RL 离线RLBCQ: Batch-Constrained Q-learning
盼小辉丶
12 天前
人工智能
·
pytorch
·
深度学习
·
强化学习
PyTorch实战(25)——使用PyTorch构建DQN模型
我们已经探讨了深度Q网络 (Deep Q-learning Network, DQN) 的理论基础,在本节中,我们将使用 PyTorch 构建一个基于卷积神经网络 (Convolutional Neural Network, CNN) 的 DQN 模型,训练一个智能体进行视频游戏 Pong。本节的目标是完整展示如何运用 PyTorch 开发深度强化学习应用。
山顶夕景
12 天前
大模型
·
llm
·
强化学习
·
rl
【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data
这篇论文提出了绝对零(Absolute Zero)范式,用于解决不依赖外部数据的推理模型训练问题。具体来说,
_pinnacle_
13 天前
神经网络
·
算法
·
强化学习
·
ppo
·
多维价值预测
多维回报与多维价值矢量化预测的PPO算法
长期以来,强化学习算法都是使用单一的标量回报(Return or Reward)与价值(Value)估计,即只使用加权求和后的reward作为评价函数(Critic function)或值估计函数(Value function)的目标真值。
人工智能培训
16 天前
人工智能
·
深度学习
·
安全
·
大模型
·
知识图谱
·
强化学习
·
大模型工程师
企业如何安全、私密地部署大模型?
在数字化转型深入推进的今天,大模型已成为企业提升效率、优化服务的核心工具,但金融、医疗、政务等行业的企业在应用中,需直面敏感数据保护与合规性的双重挑战。将大模型私有化部署于企业自有基础设施,实现“数据不出门、AI能进门”,是平衡赋能价值与安全风险的核心路径。以下从全流程视角,拆解安全私密部署的关键策略。
盼小辉丶
16 天前
pytorch
·
深度学习
·
强化学习
PyTorch实战(24)——深度强化学习
机器学习通常可分为不同范式,例如监督学习、无监督学习、半监督学习、自监督学习以及强化学习。监督学习需要标注数据,是当前应用最广泛的机器学习范式。然而基于无监督和半监督学习的应用(仅需少量或无需标注)正持续增长,尤其是生成模型领域。更值得注意的是,大语言模型的崛起表明自监督学习(标签隐含在数据中)是一种更具前景的机器学习范式。 强化学习 (Reinforcement Learning, RL) 是机器学习的另一分支,被认为是最接近人类学习方式的范式。谷歌 DeepMind 开发的 AlphaGo 模型是一个
2401_84149564
16 天前
人工智能
·
python
·
深度学习
·
强化学习
·
dqn
·
double dqn
·
dueling dqn
【强化学习】DQN 改进算法
目录一、引言二、Double DQN 算法(一)Double DQN 的提出背景:解决原始 DQN 的 Q 值过估计问题