强化学习

车队老哥记录生活21 小时前
人工智能·算法·机器学习·强化学习
强化学习 RL 基础 3:随机近似方法 | 梯度下降本文内容主要参考《赵世钰. 强化学习的数学原理》 整理编写,本文也加入了许多自己的认识,详细内容请参见教材,致谢 赵世钰 老师 和 GPT。
小喵要摸鱼2 天前
强化学习·rl·q-learning
Q-learning 算法 —— 无模型(model-free)强化学习眼里没有对纪念日的专属感言,只有对优质内容诞生的渴望!!!1989 年,Christopher J. C. H. Watkins 在其博士论文中系统提出并分析了 Q-learning 算法, 开创 无模型(model-free)强化学习 理论体系,为智能体在 未知环境 中通过试错交互直接学习最优状态-动作价值函数。
小喵要摸鱼2 天前
深度学习·强化学习
深度强化学习 Deep Q-learning:把深度学习引入强化学习参考:Deep Q-Learning in Reinforcement LearningDeep Q-learning 是一种利用 深度学习 帮助机器在 复杂情境 中 做出决策 的方法。它在状态数量极大的环境中尤为有效,例如视频游戏或机器人领域。
海边夕阳20062 天前
人工智能·经验分享·机器学习·强化学习·自注意力
【每天一个AI小知识】:什么是自注意力?目录一、小明的翻译难题:从故事说起二、自注意力的基本概念2.1 什么是自注意力?2.2 自注意力与传统注意力的区别
昨晚我输给了一辆AE862 天前
前端·react.js·强化学习
react-hook-form 初始化值为异步获取的数据的最佳实践在 React Hook Form 中,直接在 useForm 的 defaultValues 参数中使用静态默认值是首选方式,因为:
励志成为大佬的小杨3 天前
强化学习
强化学习相关returns是智能体通过一个路径下,所获得的奖励的总和,通过returns能够知道如果智能体通过这样一个trajectory下,获得的奖励总和,来衡量与其他trajectory的比较,就能够知道哪一条道路更加适合。
智算菩萨4 天前
人工智能·算法·强化学习
强化学习从单代理到多代理系统的理论与算法架构综述参考文献:Zhang, D., Yuan, Q., Meng, L. et al. Reinforcement learning for single-agent to multi-agent systems: from basic theory to industrial application progress, a survey. Artif Intell Rev (2025). https://doi.org/10.1007/s10462-025-11439-9
倔强的石头1064 天前
强化学习·昇腾
多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践——从环境搭建到端到端精度验证的完整实战指南近年来,随着文生图模型加速演进,“小而美”的后训练模型正成为行业趋势。Flux 系列模型凭借高效生成质量受到广泛关注,而 DanceGRPO 作为专为生成式 AI 设计的 RL(强化学习)框架,通过引入高质量奖励模型与 GRPO 策略,在 Flux 等模型上可取得显著的生成效果提升。
黑客思维者8 天前
人工智能·机器学习·强化学习
机器学习005:强化学习(概论)--从“训练狗狗”到“打游戏”你好!欢迎来到人工智能的奇妙世界。今天我们要聊的话题是“强化学习”。想象一下:你养了一只小狗,想教它“坐下”。你拿出零食,当它偶然坐下时,立刻给予奖励(零食+抚摸)。重复几次,小狗就学会了“坐下就有好吃的”,于是一见到你就会主动坐下——这就是强化学习最朴素的雏形。
赫凯10 天前
人工智能·python·强化学习
【强化学习】第一章 强化学习初探就是笔记,网址在这动手强化学习核心内容总结强化学习是机器通过与环境交互来实现目标的一种计算方法,主要解决 ** 序贯决策(sequential decision making)** 任务。 基本交互模式:
nju_spy10 天前
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO
徐桑10 天前
机器人·强化学习
【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real。前言: 最近在研究基于 legged_gym 的四足机器人控制。在啃代码和论文的过程中,Policy Gradient(策略梯度)是一个绕不开的核心概念。 面对一堆 \(\nabla\) 和 \(\log\) 符号,我不禁思考:这些抽象的数学公式,到底是如何变成控制电机输出扭矩的指令的? 本文将从最基础的目标函数出发,推导策略梯度公式,并结合 Sim-to-Real(仿真到真机)的工程难点,记录我的理解。
加点油。。。。10 天前
人工智能·机器学习·强化学习
【强化学习】——策略梯度方法🔄 以前 vs 现在以前 (Tabular):策略 π \pi π 是一个大表格。现在 (Function Approximation):策略 π \pi π 是一个函数(通常是神经网络)。
kkkkkkkkk_120111 天前
学习·强化学习
【强化学习】07周博磊强化学习纲要学习笔记——第四课上今日课程提纲:
free-elcmacom11 天前
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD训练BERT时loss突然爆炸,调了学习率、查了数据却毫无头绪?用Adam训练大模型明明“公认更强”,可AlphaGo、ChatGPT的强化学习模块偏要执着于“古老”的SGD?GPU显存不足只能把batch_size从32压到4,结果训练震荡到根本无法收敛?
AI-Frontiers12 天前
强化学习
小白也能看懂的RLHF-PPO:原理篇原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w
传说故事12 天前
人工智能·强化学习
RL中的同步和异步(On-Policy & Off-Policy)的通俗解释核心类比:餐厅厨房想象一个餐厅的厨房在做一道需要“边尝味道边调整”的菜(这就是RL训练)。• 流程:• 特点:
视觉&物联智能14 天前
人工智能·ai·chatgpt·aigc·强化学习·agi·deepseek
【杂谈】-RL即服务:解锁新一轮自主浪潮强化学习本质上属于机器学习范畴,智能体通过与环境的交互来学习决策。具体而言,智能体执行动作后,会收到以奖励或惩罚形式呈现的反馈,进而逐步学习实现目标的策略。其基本原理可类比于训练狗的过程。当狗做出正确的行为时,我们会给予奖励,狗通过不断尝试,逐渐明白哪些动作能够带来奖励。强化学习系统基于类似原理,但处理的数据规模和计算量要庞大得多。
自动化小秋葵15 天前
强化学习
强化学习-数据操作与预处理语法如图,第一列更正:[:,1] , [第x行,第y列]先学一下pytorch:本节内容全是基于pytorch的操作
kkkkkkkkk_120116 天前
笔记·学习·强化学习
【强化学习】06周博磊强化学习纲要学习笔记——第三课下今日课程提纲: 接下来将介绍model-free control。就是当没法得到马尔科夫决策过程里面模型的情况下,如何去优化它的价值函数,如何去得到一个最佳的策略。这里我们将把之前我们介绍的policy iteration进行一个广义的推广,使它能够兼容MC和TD。