强化学习

亲爱的阿瞎2 天前
强化学习
p12 3.3 学习状态值函数_cdnUP主: 吴恩达-深度学习 时长: 16:50 链接: https://www.bilibili.com/video/BV1fdgVzmEhU?vd_source=c5f4fa69d4683faa24f604a2266ac501&spm_id_from=333.788.player.switch&p=12 笔记时间: 2026-06-05 11:52:16
亲爱的阿瞎2 天前
强化学习
p09 2.4 random stochastic e_cdnUP主: 吴恩达-深度学习 时长: 8:24 链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p=9 笔记时间: 2026-06-05 10:07:46
亲爱的阿瞎3 天前
强化学习
p08 2.3 贝尔曼方程_cdnUP主: 吴恩达-深度学习 时长: 12:52 链接: https://www.bilibili.com/video/BV1fdgVzmEhU?p=8 笔记时间: 2026-06-04 16:10:40
盼小辉丶3 天前
pytorch·python·深度学习·强化学习
PyTorch强化学习实战(11)——N步DQN(N-step DQN)自从 DeepMind 在 2015 年提出深度Q网络 (Deep Q-Network, DQN) 模型以来,研究人员已经提出了诸多改进方案,通过对基础架构的调整显著提升了原始 DQN 的收敛性、稳定性和样本效率。 2017 年 DeepMind 的 Hessel 等人发表了名为 Rainbow: Combining improvements in deep reinforcement learning 的论文,系统性地整合了 DQN 的六大核心改进。仅通过这六种方法的组合,便在 Atari 游戏测试集上
啵啵鱼爱吃小猫咪5 天前
机器人·强化学习·示教学习
示教学习强化学习用的标准数据集robosuite 是基于 MuJoCo 的机器人操作仿真框架,提供一组可复现的机器人操作 benchmark 环境。robomimic 则是专门面向 robot learning from demonstration 的框架,提供示教数据集、离线学习算法和统一评测流程。robomimic 官方定位就是提供机器人操作领域的 demonstration datasets 和 learning algorithms,目标是支持公平、可复现的 robot learning benchmark。
SuperHeroWu75 天前
算法·环境·强化学习·损失函数·奖励
【算法】强化学习中奖励和损失函数的关系奖励是环境的"评分",损失函数是优化器的"指导手册"。奖励告诉我们"什么好什么坏",损失函数告诉优化器"如何调整神经元的权重,让好的动作更可能发生"。
Agilex松灵机器人5 天前
agent·强化学习·仿真·具身智能·skill·松灵机器人
松灵技术生态|IsaacLab中实现松灵PIPER机械臂键盘遥操作与数据采集教程随着具身智能和模仿学习(Imitation Learning)的快速发展,越来越多开发者开始尝试在 IsaacLab 中完成机械臂遥操作与数据采集任务。但在实际部署过程中,松灵PiPER 等机械臂通常会面临:
皮皮木子9 天前
编译·强化学习·cmake·蒸馏
rl_locomotion 编译过程三项目名称为 _raisim_gym_torch,使用 C++14 标准。所有编译产物(.so、.a、可执行文件)统一输出到 raisimGymTorch/env/bin/。
强盛机器学习~9 天前
人工智能·matlab·无人机·边缘计算·强化学习·无人机路径规划
2026热门方向!基于强化学习的多无人机移动边缘计算与路径规划研究(完整代码&数据)目录场景建模算法设计结果展示完整代码获取最近,后台有不少小伙伴问我,无人机路径规划研究已经做烂了,A*、蚁群、粒子群等能用的算法都被前人写过了,毕业设计、小论文还能怎么搞出新意?
春日见9 天前
人工智能·机器学习·分类·数据挖掘·强化学习
强化学习方法分类:强化学习的目标就是找到一个最优策略。强化学习方法就是通过不同的思路与路径找到最优策略。分类核心:算法是否利用环境的状态转移概率 $P$ 和 奖励函数 $R$来学习最优策略。
盼小辉丶11 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战——使用高级组件复现DQN本节,我们将使用在《强化学习高级组件》一节介绍的高级组件复现经典深度Q网络 (Deep Q-Network, DQN) 方法。这将大幅精简代码,使核心逻辑更加突出。需要强调的是,本专栏的目标是培养对强化学习 (Reinforcement Learning, RL) 方法的本质理解,这种能力远比掌握特定库更有价值,因为工具库会迭代更新,而对领域的深刻认知能快速理解相关原理和代码并根据实际应用选择合适的算法。 基础 DQN 实现包含三个核心文件:
亲爱的阿瞎12 天前
强化学习
1、强化学习中的回报与策略状态: 回报: (更快的获得奖励可能比需要很长时间才能得到的奖励更具有吸引力) 折扣因子一般是比1少一点的数,如0.9,0.99,0.999等,下面为了说明目的,暂且使用0.5的折扣因子,这将极大的降低未来奖励的权重,或者说极大的折扣了未来的奖励,因为每经过一个时间戳,你只能获得比前一步少一半的奖励信用。 例子: (你得到的奖励取决于奖励,而奖励又取决于你采取的行动,因此回报取决于你采取的行动) 例1:基于上述例子,若一直只往左走,折扣因子=0.5,则分别从不同状态起步获得的奖励计算如下: 例2:如果总往
勾股导航13 天前
人工智能·强化学习·reinforce 算法
REINFORCE算法1.算法描述REINFORCE 算法是基于蒙特卡洛采样的无模型策略梯度方法,由 Williams 于 1992 年提出。其核心思想是:利用完整轨迹采样得到的未来累积回报 Gt 加权策略梯度,优化策略参数;通过增大高回报轨迹中动作的概率、降低低回报轨迹中动作的概率,从而提升策略性能。
勾股导航13 天前
人工智能·强化学习·a2c
A2C算法1.算法描述A2C是一种同步式策略梯度算法,核心是通过优势函数(Â(s,a) = Q(s,a) - V(s))替代传统回报值,显著降低策略梯度的方差。
勾股导航14 天前
人工智能·强化学习
DQN算法1.案例描述用 Q-learning 算法训练智能体在网格世界中自主 学习 避障、找到从起点到终点的最优路径,并展示训练结果。
SP FA14 天前
人工智能·强化学习·dqn
深度强化学习与控制(二):无模型强化学习在现实问题中,通常没有明确地给出状态转移和奖励函数,模型无关的强化学习可以直接从经验中学习 value 和 policy,而无需构建马尔可夫决策过程模型
盼小辉丶14 天前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战(10)——强化学习高级组件我们已经学习了如何实现深度Q网络 (Deep Q-Network, DQN) 模型,证明了非线性近似器完全可用于强化学习,这一概念验证极大地推动了深度Q学习乃至整个深度强化学习领域的研究热潮。在本节中,我们将重点探讨如何定义强化学习高级组件,使用更高级的模块构建代码,并聚焦于所实现方法的核心细节,避免反复实现相同的逻辑,避免重复造轮子的低效劳动。
威化饼的一隅15 天前
大模型·llm·agent·强化学习·智能体·agentic rl·旅游智能体
【大模型LLM学习】Agentic RL—基于Qwen3-4b训练Travel Planning Agent通义千问的deepresearch系列最新的一篇,高德公开了旅行规划助手的训练方法,论文为《ArenaRL: Scaling RL for Open-Ended Agents via Tournament based Relative Ranking》,并且这种方法不只是可以用于旅行规划助手,还可以扩展到其他Open-ended生成任务,解决开放生成任务里面llm-as-judge打分太随机把奖励信号淹没的问题。   在这篇中记录尝试训练本地的旅行规划助手,需要使用到高德的地理API接口,阿里百炼的Qwe
盼小辉丶17 天前
pytorch·深度学习·强化学习
PyTorch强化学习实战——Atari游戏包装器从资源角度来看,用强化学习 (Reinforcement Learning, RL) 处理 Atari 游戏颇具挑战性。为提升效率,需要对 Atari 游戏交互应用多种变换。其中部分变换仅影响性能,另一些则针对 Atari 平台特性——这些特性会导致学习过程漫长且不稳定。这些变换可以通过 Gymnasium 库的各类包装器实现,其中 stable-baselines3 (SB3) 代码库是最常用的包装器之一。
viperrrrrrrrrr717 天前
人工智能·强化学习
强化学习入门笔记🍋🍋AI学习🍋🍋🔥系列专栏:👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞