强化学习

指掀涛澜天下惊11 天前
人工智能·机器学习·强化学习
AI 基础知识十九 强化学习前言RL 不再局限游戏 / 机器人,成为大语言模型对齐、通用人工智能核心工具。广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器在环境的一个状态下做一个动作,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这个动作决策对未来产生(影响)的收益价值。分为三个层次结构组成:基本元素、主要元素、核心元素
劈星斩月11 天前
人工智能·机器学习·监督学习·强化学习·无监督学习
机器学习之 定义与三大范式过去十多年,从引爆深度学习浪潮的 ImageNet 图像竞赛、颠覆围棋认知的 AlphaGo,再到掀起生成式 AI 革命的 ChatGPT 大模型,每一次震撼行业的技术颠覆与跨越式突破,本质都是机器学习各类范式持续迭代、相互融合催生的成果。
盼小辉丶11 天前
pytorch·python·深度学习·强化学习
PyTorch强化学习实战(14)——优先经验回放机制经验回放 (Experience Replay) 通过打破样本间的时序相关性,极大地稳定了训练过程,使深度Q网络 (Deep Q-Network, DQN) 能够从非平稳分布中高效学习。然而,传统经验回放采用均匀采样策略,对所有经验样本一视同仁,这引发了一个关键问题:是否所有经验都具有同等价值?2015 年,DeepMind 的研究团队发表了《Prioritized Experience Replay》,提出了一种全新的采样机制——优先级经验回放。该方法的核心是:强化学习算法可以从更重要、更有价值的经验中
文艺倾年11 天前
人工智能·分布式·大模型·强化学习·vibecoding
【强化学习】数学推导专题,20W字总结(十五)😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解【强化学习】数学推导专题,20W字总结(十五),期待与你一同探索、学习、进步,一起卷起来叭!
文艺倾年13 天前
人工智能·软件工程·强化学习
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本文讲解【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二),期待与你一同探索、学习、进步,一起卷起来叭!
happyprince13 天前
人工智能·架构·wpf·强化学习
07_verl-Trainer模块详解Trainer 模块是 verl 训练流程的控制中心,负责编排完整的 PPO(Proximal Policy Optimization)训练循环。它将数据加载、模型推理、奖励计算、优势估计、策略更新等环节串联成一个端到端的训练流水线,同时协调多个分布式 Worker 之间的协作。
chen_zn9514 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(一):从轨迹回报到优势标签与RECAP数据处理相关的代码主要位于,完整数据流如下,RLinf不会把Return和Advantage直接写回原始轨迹文件,而是保存成独立的Sidecar Parquet。例如,
happyprince14 天前
人工智能·架构·强化学习
08_verl-Workers模块详解Workers 模块是 verl 框架的计算执行层,是将训练和推理任务封装为可分布式执行工作器的核心抽象。如果说 Single Controller 是 verl 的"大脑"负责调度决策,那么 Workers 就是"四肢"——真正执行模型训练、推理生成、权重同步等计算密集型任务的实体。
happyprince14 天前
人工智能·架构·强化学习
02_verl-代码目录结构详解verl 是一个面向大语言模型(LLM)强化学习后训练的生产级框架,其代码组织遵循 “核心包 + 示例驱动 + 插件化扩展” 的三层架构模式。核心包 verl/ 封装了训练、推理、通信、检查点等全部基础设施;examples/ 以算法为维度提供开箱即用的运行脚本;tests/ 和 docs/ 分别保障质量与可维护性。
happyprince14 天前
人工智能·架构·强化学习
10_verl-Rollout模块详解Rollout 模块是 verl 框架的推理生成层,负责在 RL 训练循环中执行模型推理、生成序列(rollout sequences),为奖励模型和策略更新提供采样数据。它是连接"训练引擎"与"推理引擎"的桥梁,核心挑战在于:如何统一多种高性能推理引擎(vLLM / SGLang / HuggingFace / TRT-LLM)的接口,并在训练-推理切换时高效同步权重?
chen_zn9514 天前
人工智能·强化学习·具身智能·vla
RLinf复现RECAP(二):优势标签驱动pi0.5的CFG训练CFG全称为Classifier-Free Guidance(无分类器引导),最初主要用于扩散生成模型,通过比较条件预测和无条件预测,让生成结果更符合指定条件。例如,在图像生成任务中,模型可以分别计算,
happyprince14 天前
人工智能·架构·强化学习
05_verl-配置系统详解verl 作为一个支持大规模 RLHF 训练的分布式框架,其配置系统需要应对以下核心挑战:verl 如何管理复杂的训练配置? 答案是:通过 BaseConfig 不可变数据类 + Hydra/OmegaConf 声明式配置 + YAML 分层组合的三层架构,实现从声明到实例化的完整配置管理管线。
happyprince14 天前
人工智能·架构·强化学习
06_verl-单控制器与分布式调度verl 的单控制器(Single Controller)分布式调度模型是其训练框架的神经中枢。它将分布式训练的复杂性封装在一个单进程控制器中,使得上层训练逻辑只需像调用本地方法一样调用远程 Worker 方法,而无需关心数据分片、进程间通信、资源分配等底层细节。这种设计让 RLHF 等复杂训练流程的编排变得简洁而高效。
盼小辉丶14 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战(13)——噪声网络(NoisyNet-DQN)在深度强化学习中,探索与利用的权衡一直是一个核心难题。传统的探索策略,如经典的 ε-greedy 或熵正则化,本质上都是在动作空间中添加随机扰动。这种方法虽然简单,但却存在一个根本性问题:每一步的动作扰动都是独立的、无状态的,难以产生持续、连贯的探索行为,尤其在需要多步协调才能发现奖励的稀疏奖励环境中,这种“抖动式”探索往往效率低下。2018 年,DeepMind 研究团队提出了一种全新的探索范式——NoisyNet。该方法将可学习的参数化噪声直接注入神经网络的权重中,使智能体能够在策略空间中实现状态依赖
chen_zn9514 天前
人工智能·深度学习·强化学习·具身智能·vla
pi*0.6的RECAP:VLA如何从成功、失败和人工纠正中继续学习VLA 模型通常从人工示范中学习,训练数据告诉模型,看到这个画面和任务指令时,执行这组机器人动作。这种方法适合让机器人快速掌握基本技能,但存在一个明显问题,模型只知道模仿数据,不知道数据中的动作到底有多好。
科研小刘带你玩学术15 天前
论文·强化学习·机器人视觉·physical ai·人类意图识别·reward function
【科研快讯】KAIST突破性研究:让机器人“读懂“人类意图——VOTP算法开启Physical AI新纪元6月10日,韩国科学技术院(KAIST)宣布了一项将深刻影响机器人产业的技术突破。由电气工程系Chang D. Yoo教授领导的研究团队,全球首次开发出名为"VOTP(Video-based Optimal Transport Preference)"的创新技术——仅需数段人类偏好视频,AI即可自主学习人类的判断标准与行为意图,而无需传统方法所需的数千乃至上万条人工标注数据。该研究论文已被机器学习领域顶级会议录用为Oral Presentation,在23,918篇投稿中脱颖而出(前0.7%),标志着国际
君为先-bey19 天前
强化学习·扩散模型·opd
DiffusionOPD——扩散模型中在线策略蒸馏的统一视角DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
盼小辉丶19 天前
人工智能·pytorch·深度学习·强化学习
PyTorch强化学习实战(12)——Double DQN(DDQN)自从 DeepMind 在 2015 年提出深度Q网络 (Deep Q-Network, DQN) 模型以来,研究人员已经提出了诸多改进方案,通过对基础架构的调整显著提升了原始 DQN 的收敛性、稳定性和样本效率。 2017 年 DeepMind 的 Hessel 等人发表了名为 Rainbow: Combining improvements in deep reinforcement learning 的论文,系统性地整合了 DQN 的六大核心改进。仅通过这六种方法的组合,便在 Atari 游戏测试集上
亲爱的阿瞎22 天前
强化学习
p12 3.3 学习状态值函数_cdnUP主: 吴恩达-深度学习 时长: 16:50 链接: https://www.bilibili.com/video/BV1fdgVzmEhU?vd_source=c5f4fa69d4683faa24f604a2266ac501&spm_id_from=333.788.player.switch&p=12 笔记时间: 2026-06-05 11:52:16
亲爱的阿瞎22 天前
强化学习
p09 2.4 random stochastic e_cdnUP主: 吴恩达-深度学习 时长: 8:24 链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p=9 笔记时间: 2026-06-05 10:07:46