强化学习

智算菩萨13 小时前
人工智能·算法·强化学习
强化学习从单代理到多代理系统的理论与算法架构综述参考文献:Zhang, D., Yuan, Q., Meng, L. et al. Reinforcement learning for single-agent to multi-agent systems: from basic theory to industrial application progress, a survey. Artif Intell Rev (2025). https://doi.org/10.1007/s10462-025-11439-9
倔强的石头10619 小时前
强化学习·昇腾
多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践——从环境搭建到端到端精度验证的完整实战指南近年来,随着文生图模型加速演进,“小而美”的后训练模型正成为行业趋势。Flux 系列模型凭借高效生成质量受到广泛关注,而 DanceGRPO 作为专为生成式 AI 设计的 RL(强化学习)框架,通过引入高质量奖励模型与 GRPO 策略,在 Flux 等模型上可取得显著的生成效果提升。
黑客思维者5 天前
人工智能·机器学习·强化学习
机器学习005:强化学习(概论)--从“训练狗狗”到“打游戏”你好!欢迎来到人工智能的奇妙世界。今天我们要聊的话题是“强化学习”。想象一下:你养了一只小狗,想教它“坐下”。你拿出零食,当它偶然坐下时,立刻给予奖励(零食+抚摸)。重复几次,小狗就学会了“坐下就有好吃的”,于是一见到你就会主动坐下——这就是强化学习最朴素的雏形。
赫凯6 天前
人工智能·python·强化学习
【强化学习】第一章 强化学习初探就是笔记,网址在这动手强化学习核心内容总结强化学习是机器通过与环境交互来实现目标的一种计算方法,主要解决 ** 序贯决策(sequential decision making)** 任务。 基本交互模式:
nju_spy7 天前
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO
徐桑7 天前
机器人·强化学习
【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real。前言: 最近在研究基于 legged_gym 的四足机器人控制。在啃代码和论文的过程中,Policy Gradient(策略梯度)是一个绕不开的核心概念。 面对一堆 \(\nabla\) 和 \(\log\) 符号,我不禁思考:这些抽象的数学公式,到底是如何变成控制电机输出扭矩的指令的? 本文将从最基础的目标函数出发,推导策略梯度公式,并结合 Sim-to-Real(仿真到真机)的工程难点,记录我的理解。
加点油。。。。7 天前
人工智能·机器学习·强化学习
【强化学习】——策略梯度方法🔄 以前 vs 现在以前 (Tabular):策略 π \pi π 是一个大表格。现在 (Function Approximation):策略 π \pi π 是一个函数(通常是神经网络)。
kkkkkkkkk_12018 天前
学习·强化学习
【强化学习】07周博磊强化学习纲要学习笔记——第四课上今日课程提纲:
free-elcmacom8 天前
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD训练BERT时loss突然爆炸,调了学习率、查了数据却毫无头绪?用Adam训练大模型明明“公认更强”,可AlphaGo、ChatGPT的强化学习模块偏要执着于“古老”的SGD?GPU显存不足只能把batch_size从32压到4,结果训练震荡到根本无法收敛?
AI-Frontiers9 天前
强化学习
小白也能看懂的RLHF-PPO:原理篇原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w
传说故事9 天前
人工智能·强化学习
RL中的同步和异步(On-Policy & Off-Policy)的通俗解释核心类比:餐厅厨房想象一个餐厅的厨房在做一道需要“边尝味道边调整”的菜(这就是RL训练)。• 流程:• 特点:
视觉&物联智能11 天前
人工智能·ai·chatgpt·aigc·强化学习·agi·deepseek
【杂谈】-RL即服务:解锁新一轮自主浪潮强化学习本质上属于机器学习范畴,智能体通过与环境的交互来学习决策。具体而言,智能体执行动作后,会收到以奖励或惩罚形式呈现的反馈,进而逐步学习实现目标的策略。其基本原理可类比于训练狗的过程。当狗做出正确的行为时,我们会给予奖励,狗通过不断尝试,逐渐明白哪些动作能够带来奖励。强化学习系统基于类似原理,但处理的数据规模和计算量要庞大得多。
自动化小秋葵11 天前
强化学习
强化学习-数据操作与预处理语法如图,第一列更正:[:,1] , [第x行,第y列]先学一下pytorch:本节内容全是基于pytorch的操作
kkkkkkkkk_120113 天前
笔记·学习·强化学习
【强化学习】06周博磊强化学习纲要学习笔记——第三课下今日课程提纲: 接下来将介绍model-free control。就是当没法得到马尔科夫决策过程里面模型的情况下,如何去优化它的价值函数,如何去得到一个最佳的策略。这里我们将把之前我们介绍的policy iteration进行一个广义的推广,使它能够兼容MC和TD。
i.ajls15 天前
笔记·机器学习·强化学习·mappo
强化学习入门-5(MAPPO)本环境是 PettingZoo 库中 MPE (Multi-Agent Particle Environments) 系列的一个经典多智能体协作环境。
kkkkkkkkk_120116 天前
笔记·学习·强化学习
【强化学习】05周博磊强化学习纲要学习笔记——第三课上今日课程提纲:今天是强化学习纲要课程的第三课。我将给大家介绍model free prediction and control。就是在没有模型的条件下,怎么进行预测跟控制。上一次课我给大家介绍了MDP,然后给定一个policy怎么去衡量一个policy的价值。然后也介绍了两种常见的MDP控制的算法,就policy iteration以及value iteration。 这里有一个很重要的不同是,我们是不是已知MDP,因为知不知道这个MDP会对我们选择算法有非常重要的影响。因为在现实生活中,大部分的MDP其
强化学习与机器人控制仿真17 天前
人工智能·stm32·深度学习·机器人·强化学习·人形机器人·模仿学习
ProtoMotions 3 入门教程(一)开源 GPU 加速人形机器人强化学习仿真训练框架目录系列文章目录前言0.1 关键特性0.2 高层架构一、安装1.1 前提条件1.2 选择您的模拟器(s)
74419 天前
笔记·强化学习
数据结构(C语言版)线性表-单链表的拓展及应用(1)算法的基本设计思想双指针:快慢指针定义两个指针变量 fast 和 slow ,初始时均指向头结点的下一个结点(链表的第一个结点)。 fast指针沿链表移动:当 fast 指针移动到第 k 个结点时, fast 指针开始与 slow 指针同步移动:当 fast 指针移动到最后一个结点时, slow 指针所指示结点为倒数第 k 个结点。以上过程对链表仅进行一遍扫描。
74419 天前
强化学习
数据结构(C语言版)线性表-链表线性表链式存储结构的特点是:用一组任意的存储单元存储线性表的数据元素(这组存储单元可以是连续的,也可以是不连续的)。 为了表示每个数据元素 a i 与其直接后继数据元素 a i+1 之间的逻辑关系,对数据元素 ai 来说,除了其本身的信息之外,还需要存储一个指示其直接后继的信息(直接后继的存储位置)。这两部分信息组成数据元素 a 的存储映像,称为节点( node )。 结点包括两个域:其中存储数据元素信息的称为数据域;存储直接后继存储位置有域称为指针域。指针域中存储的信息称作指针或链。 n个结点[ a (
肖邦德夜曲19 天前
机器学习·强化学习
1.强化学习基本概念强化学习的所有理论,都建立在一个统一的数学框架上,叫做 马尔可夫决策过程 (MDP, Markov Decision Process)