强化学习

威化饼的一隅8 小时前
大模型·llm·agent·强化学习·智能体·grpo
【大模型LLM学习】从强化学习到GRPO【上】强化学习是一个与时间相关的序列决策的问题,基本理论框架通常假设环境是一个马尔可夫决策过程(Markov Decision Process, MDP)。里面涉及到状态、动作、状态转移概率、奖励和奖励折扣因子( S 、 A 、 P 、 R 、 γ S、A、P、R、\gamma S、A、P、R、γ),这5 个合集就构成了强化学习马尔可夫决策过程的五元组:
靴子学长9 小时前
大模型·强化学习·算法设计·大模型推理·源码解读
GRPO 深度解析 (TRL 源码视角)参考:huggingface/trlTRL 是一个面向后训练(post-training)的前沿库,支持 SFT、GRPO、DPO 等技术,构建于 🤗 Transformers 生态之上,可跨多种硬件规模扩展。
简简单单做算法9 小时前
算法·matlab·强化学习·qlearning·小车倒立摆平衡控制
基于Q-Learning强化学习的小车倒立摆平衡控制系统matlab性能仿真目录1.前言2.算法测试效果图预览3.算法运行软件版本4.部分核心程序5.算法理论概述倒立摆动力学模型
小刘的AI小站1 天前
算法·机器学习·强化学习
L9 Policy Gradient Method (二)目录REINFORCE 算法详解伪代码策略 π(a|s, θ) 长什么样?算法逐步拆解Step 1: 跑完一整个回合
小刘的AI小站1 天前
强化学习
L9 Policy Gradient Method (一)目录核心思想:从"间接"到"直接"第一步:策略如何参数化?第二步:优化什么目标?(Metrics)Metric 1: Average Value(平均状态价值)
非社会人士11 天前
大模型·强化学习·verl
verl 中序列长度相关配置梳理:理清数据、Rollout 与 PPO 训练边界在 verl 中,和序列长度相关的配置看起来很多,但本质上都围绕三个问题展开:很多混淆都来自于没有区分这三层边界。比如:
强化学习与机器人控制仿真11 天前
人工智能·神经网络·机器人·强化学习·扩散模型·英伟达·人形机器人
Kimodo 入门教程(一)英伟达开源人形机器人动捕数据集训练运动学动作扩散模型目录系列文章目录前言亮点一、安装1.1 配置 Hugging Face 令牌1.2 Kimodo 安装选项 1:包安装
绵满17 天前
深度学习·强化学习·基础知识
强化学习基础(RL)笔记(1) 定义强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境下采取行动,以最大化长期累积奖励
WWZZ202518 天前
人工智能·机器人·大模型·强化学习·具身智能·四足·人形
具身智能入门Isaac Sim——机器人设置-初级设计轮式机器人2目录1 构建基础机器人1.1 学习目标1.2 前期准备1.3 添加关节1.4 添加关节驱动1.5 添加关节体
智算菩萨19 天前
人工智能·深度学习·机器学习·语言模型·强化学习
Chain-of-Thought Prompting:为什么逐步推理能提升大模型准确率大语言模型(Large Language Models, LLMs)近年来在自然语言处理领域取得了突破性进展,从早期的统计语言模型发展到如今的Transformer架构,模型规模从数百万参数扩展到数千亿参数,其能力边界不断被重新定义。然而,一个长期困扰研究者的核心问题是:这些模型究竟是在真正"推理",还是仅仅在进行复杂的模式匹配?2022年,Google Research团队发表的里程碑式论文"Chain-of-Thought Prompting Elicits Reasoning in Large La
Baihai_IDP1 个月前
人工智能·llm·强化学习
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径编者按: 当我们在惊叹AI竟能自主推导数学定理、重构百万行代码时,是否还该用“它不过是在猜下一个词”来解释这一切?这种始于2023年的简化论调,如今是否已成了我们理解智能本质的认知枷锁?
大傻^1 个月前
机器人·llm·大语言模型·强化学习·urdf·ppo·奖励设计
强化学习与大模型融合:从理论到机器人实践全解析导读:本文系统梳理了强化学习(RL)与大语言模型(LLM)融合的前沿技术,涵盖从理论基础、算法架构到机器人仿真实践的完整链路。基于最新学术讨论与实验案例,深入剖析如何利用大模型优化奖励设计、解决多智能体协作难题,并提供完整的开发环境搭建指南。
山顶夕景1 个月前
大模型·llm·强化学习·rl·agentic rl
【LLM】ROLL团队的Agentic RL训练坑点首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent 框架) 和 ROCK(沙箱管理器)。
一颗小树x1 个月前
强化学习·训练·vla·π0·π0.5
《VLA 系列》π0 与 π0.5 | 强化学习 训练 | VLA本文分享使用 RLinf 框架对 π₀ 和π₀.₅ 进行强化学习微调。支持PPO和GRPO等强化学习算法。
码农小韩1 个月前
人工智能·python·深度学习·agent·强化学习·deepseek
AIAgent应用开发——DeepSeek分析(二)【冷启动微调】冷启动微调是DeepSeek训l练的第一步,使用少量高质量数据,引导模型掌握基本推理逻辑。
香芋Yu1 个月前
人工智能·算法·强化学习·rl·sarsa·q-learning
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA本章目标:理解 On-policy 与 Off-policy 的核心区别,掌握 SARSA 和 Q-Learning 算法,通过 Cliff Walking 案例深入理解两者的行为差异,学习 Expected SARSA 作为中间形态,并理解 Maximization Bias (最大化偏差) 问题及 Double Q-Learning 的解决方案。
香芋Yu1 个月前
强化学习·时序差分学习
【强化学习教程——01_强化学习基石】第05章_时序差分学习本章目标:理解时序差分 (TD) 学习如何结合蒙特卡洛 (MC) 和动态规划 (DP) 的优点,掌握 TD(0) 算法、n-step TD 以及 TD( λ \lambda λ) 与资格迹的概念,深入理解偏差-方差权衡。
悠哉悠哉愿意1 个月前
笔记·学习·交互·强化学习
【强化学习学习笔记】马尔科夫决策过程本博客是本人的学习笔记,不是教学或经验分享,全部资料基于北京邮电大学鲁鹏老师课程强化学习基础 (本科生课程) 北京邮电大学 鲁鹏_哔哩哔哩_bilibili,侵权即删。
码农小韩1 个月前
人工智能·python·深度学习·agent·强化学习
AIAgent应用开发——DeepSeek分析(一)【项目起源与目标】DeepSeek是中国团队研发的大语言模型项目,旨在打造开源、强大且易用的AI工具,类以ChatGPT或Gemini,寓意通过深度学习探索智能边界。