强化学习

ACCELERATOR_LLC8 小时前
人工智能·深度学习·大模型·强化学习·模型训练
【DataWhale组队学习】DIY-LLM Task5 大模型的基本训练流程原文链接这一章讲的是大模型如何从底座模型变得可用。 原文说,本章重点是 SFT(监督微调),预训练和强化学习主要是总览,强化学习细节会放到下一章,不过Datawhale的组队学习没有下一章。
传说故事10 小时前
论文阅读·强化学习
【论文阅读】AWR:Simple and scalable off-policy RL把强化学习策略更新变成两个标准监督学习步骤:先回归拟合价值函数,再用advantage加权回归拟合策略,简单有效且支持off-policy。
Narrastory1 天前
人工智能·深度学习·强化学习
Note:强化学习(五)2026 | ming至此,到这里我们已经学习了很多强化学习算法了,现在就来对这些强化学习算法归归类。大体分类如图12.1所示。
盼小辉丶2 天前
人工智能·pytorch·深度学习·强化学习
PyTorch强化学习实战(3)——Gymnasium API扩展功能我们已经学习了编写智能体必需的 Gymnasium 核心功能,其余 API 功能部分虽然非必需,但能显著提升开发效率和代码整洁度。接下来,我们简要地介绍一下 Gymnasium API 的扩展功能。
我爱C编程5 天前
matlab·强化学习·移动边缘网络·双深度qlearning·ddql·高能效资源分配
移动边缘网络中基于双深度QLearning强化学习(DDQL)的高能效资源分配方法目录✅1.引言👉2.算法测试效果💡3.算法涉及理论知识概要1️⃣3.1 网络架构2️⃣3.2 通信模型
盼小辉丶5 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战(2)——强化学习环境库Gymnasium我们已经深入探讨了强化学习 (Reinforcement Learning, RL) 的理论概念,接下来,我们进入实践环节。在本节中,将介绍 Gymnasium 库的基础知识,该库为 RL 智能体提供统一 API 接口,并集成了大量 RL 环境。这套 API 最初由 OpenAI Gym 库实现,但现已停止维护。在本专栏中,我们将使用 Gymnasium——这是 OpenAI Gym 的一个分支,完全兼容原 API。统一环境 API 的价值在于:它能消除模板代码的编写需求,以通用方式实现智能体,而无需关注
谷哥的小弟5 天前
人工智能·深度学习·机器学习·大模型·强化学习·智能体
大模型核心基础知识(03)—大模型的分类方法与应用场景大模型并不是单一形态的技术对象。随着模型结构、训练方式和应用目标不断扩展,人们通常从不同角度对大模型进行分类。分类的目的,不只是给模型贴上标签,更在于帮助使用者从任务对象、训练路径和功能定位三个层面理解模型的差异,进一步判断不同模型各自适合处理什么问题,适合落到什么场景中。
Narrastory6 天前
人工智能·深度学习·强化学习
Note:强化学习(四)2026 | ming前面几章我们花了大量精力讨论 DQN 及其变体,本质上都是在做同一件事:努力学好一个动作价值函数 Q(s,a)Q(s, a)Q(s,a),然后让策略通过贪婪(或 ϵ\epsilonϵ-贪婪)的方式 a=arg⁡max⁡aQ(s,a)a = \arg\max_a Q(s, a)a=argmaxaQ(s,a) 推导出来。这套基于价值的范式在 Atari 游戏上大杀四方,但如果你多训练几个环境就会皱眉头——它处理连续动作空间时效果并不理想。
可编程芯片开发7 天前
matlab·强化学习·bilstm·vmd·qlearning·delm·超短期电力负荷预测
基于VMD分解和Qlearning强化学习的biLSTM与DELM最优组合模型的超短期电力负荷预测算法matlab仿真目录✨1.课题概述📊2.系统仿真结果✅3.核心程序或模型🚀4.系统原理简介4.1 VMD变分模态分解
传说故事7 天前
论文阅读·人工智能·强化学习·具身智能
【论文阅读】ViVa: A Video-Generative Value Model for Robot Reinforcement Learning1.题目: ViVa: A Video-Generative Value Model for Robot Reinforcement Learning 2.时间: 2026.04 3.机构: GigaAI, Sichuan University, Tsinghua University 4.3个英文关键词: Video-Generative Model, Value Estimation, Robotic Reinforcement Learning
非社会人士7 天前
强化学习·rlhf·rl·ppo·verl·infra
RL 系统 Infra 笔记:区分不同模型强化学习系统(RLHF/PPO)Infra 学习笔记,从 Infra 视角梳理各模块职责、数据流与训练循环,持续更新。
Narrastory8 天前
人工智能·深度学习·强化学习
Note:强化学习(三)2026 | ming通过第七章的实验,我们可以发现朴素版本的神经网络Q学习是非常不稳定的。不稳定的原因可以回看第七章。
盼小辉丶11 天前
人工智能·pytorch·深度学习·强化学习
PyTorch强化学习实战(1)——强化学习(Reinforcement Learning,RL)详解在动态变化的世界里,即使看似静态的输入输出问题,一旦引入时间维度,就会显现出动态特性。例如,假设要用监督学习解决一个简单的宠物图片分类任务(猫和狗两类),收集训练数据集,并使用深度学习工具实现了分类器。经过训练和验证后,模型表现出色。将其部署并运行一段时间后,可能宠物的毛发修剪潮流发生了变化,导致大量查询图像被错误分类,因此需要更新训练图像并重新训练模型。 以上例子旨在说明,即使是简单的机器学习 (Machine Learning, ML) 问题也常常有一个隐藏的时间维度。这个维度通常被忽视,却可能成为生
可编程芯片开发12 天前
matlab·强化学习·交直流微电网·qlearning·负荷频率控制
基于Qlearning强化学习的源荷扰动下交直流微电网负荷频率控制算法matlab仿真目录✨1.课题概述📊2.系统仿真结果✅3.核心程序或模型🚀4.系统原理简介4.1 交流侧频率动态模型
星马梦缘13 天前
人工智能·python·jupyter·cnn·keras·强化学习·dqn
强化学习实战-2——Keras-DoubleDQN解决Predator【图像输入】我们这次将输入从之前的状态向量改为图像输入。这一节。你需要学会如何构建一个DDQN智能体类,包括如何构建模型。
阿杰学AI13 天前
人工智能·深度学习·ai·语言模型·强化学习·奖励模型·rm
AI核心知识121—大语言模型之 基于人类反馈的强化学习 (简洁且通俗易懂版)奖励模型 (Reward Model, 简称 RM) 是 RLHF(基于人类反馈的强化学习)架构中不可或缺的“电子裁判” 。
Narrastory13 天前
人工智能·深度学习·强化学习
Note:强化学习(二)2026 | ming蒙特卡洛(MC)方法必须等到整个Episode结束才能更新。而Q学习的核心非常直接——我们能不能走一步看一步? 与其等到终点才知道回报 GtG_tGt 是多少,不如在每一步都利用当下的奖励 RtR_tRt 和下一步的估计来更新。这就是时序差分(Temporal Difference, TD)学习的精髓。
星马梦缘13 天前
人工智能·python·jupyter·强化学习·星际争霸·stablebaseline3·starcraft2
强化学习实战8.1——用PPO打赢星际争霸【环境配置与下位机代码】我们之前总结过如何在Gym定义标准化环境、修改模型架构、输出MLP层。这次我们新拿到一个项目,就是做星际争霸的强化学习智能体。同样使用基于Gym环境训练。
阿杰学AI13 天前
人工智能·算法·机器学习·ai·强化学习·dpo·直接优化偏好
AI核心知识122—大语言模型之 直接偏好优化(简洁且通俗易懂版)DPO (Direct Preference Optimization, 直接偏好优化) 是大模型对齐(Alignment)领域的一场“暴力美学”革命 。
大唐荣华14 天前
强化学习·rl·vla
从π到F:分阶段强化学习如何让机器人学会精密装配在具身智能与机器人操作领域,长时序精密装配一直是核心难题——从目标搜索、姿态对齐、稳定抓取到精准插入,任何一环失误都会导致任务失败。传统端到端强化学习常面临样本效率低、任务拆解难、鲁棒性不足的问题,而分阶段策略学习凭借「前向初始化+反向微调」的闭环框架,成为解决复杂操作任务的主流方案。