深度强化学习

龙腾亚太5 小时前
机器学习·无人机·强化学习·深度强化学习
基于深度强化学习的无人机自主感知−规划−控制策略作者:吕茂隆, 丁晨博, 韩浩然, 段海滨摘要:近年来, 随着深度强化学习(DRL)方法快速发展, 其在无人机(UAV)自主导航上的应用也受到越来越广泛的关注. 然而, 面对复杂未知的环境, 现存的基于DRL的UAV自主导航算法常受限于对全局信息的依赖和特定训练环境的约束, 极大地限制了其在各种场景中的应用潜力. 为解决上述问题, 提出多尺度输入用于平衡感受野与状态维度, 以及截断操作来使智能体能够在扩张后的环境中运行. 此外, 构建自主感知−规划−控制架构, 赋予UAV在多样复杂环境中自主导航的能力.
强盛小灵通专卖员1 天前
人工智能·机器学习·深度强化学习·核心期刊·导师·小论文·大论文
DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现在锂离子电池健康预测领域,随着电池使用环境的多样化以及电池状态监测需求的不断增长,传统的集中式数据训练方法逐渐显现出局限性。为了解决数据隐私保护和大规模数据集中处理的问题,本研究提出了一种基于联邦学习的去中心化训练方式,旨在实现更精准的锂离子电池健康预测。
v_JULY_v1 个月前
深度强化学习·wsrl·warm start rl·机器人做精密操作任务·rl机器人·real world rl·模拟离线数据保留
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调经过过去我司「七月在线」的一系列探索,发现对于某些精密操作任务而言「嗯,注意我的前提是:1 某些——非全部,2 精密操作,比如把耳机线插入耳机孔」,模仿学习的天花板基本就在80-90%,而为了做到100%,根据我们以往的经验,得进一步尝试:IL和RL的结合
喝凉白开都长肉的大胖子3 个月前
深度强化学习
常见的几种多智能体强化学习算法多智能体强化学习(Multi-Agent Reinforcement Learning, MARL,旨在解决多个智能体在共享环境中通过与环境和其他智能体交互来学习最优策略的问题。 常见的几种多智能体强化学习算法:
liuhui2446 个月前
人工智能·深度学习·强化学习·深度强化学习
深度强化学习实践 Maxim Lapan 章节6:深度Q-Network这本书的前面的章节主要是之前的学习过的内容,我就不再重复了,这一章开始正式的开始deep reinforcement的内容的研究,我们将会参考DQN的实现的来完成一个atari的游戏的学习,原来的代码对于新的环境的适配程度非常差,所以我这边会一边的学习,一边的修改的代码。这一章因为我已经看完了,所以只是简单的介绍里面的内容,因为DQN并不是一个非常好用的学习模型,后面应该还会有很多优化的方案,所以我们只是学习到了12分左右。
Code-world-19 个月前
linux·pytorch·深度学习·cuda·深度强化学习
Ubuntu系统安装NVIDIA驱动、CUDA、PyTorch等GPU深度学习环境1.1 官网下载Linux安装文件。下载链接: 点击跳转1.2 安装Anaconda。进入文件下载位置,文件夹空白处右键打开终端,终端输入以下命令安装,后面一直Yes即可。
ssf-yasuo1 年前
论文阅读·笔记·深度学习·深度强化学习·world model
TWM论文阅读笔记
HuggingFace1 年前
rlhf·深度强化学习
将强化学习重新引入 RLHF我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法,RLOO 是一种新的在线 RLHF 训练算法,旨在使其更易于访问和实施。特别是, RLOO 需要的 GPU 内存更少,并且达到收敛所需的挂钟时间也更短。如下面的图表所示:
ssf-yasuo1 年前
论文阅读·笔记·深度学习·深度强化学习·world model
STORM论文阅读笔记
喝凉白开都长肉的大胖子1 年前
人工智能·vscode·python·深度学习·jupyter·visual studio·深度强化学习
VSCode配置Python教程VScode配置python:https://zhangguohao.blog.csdn.net/article/details/105040139
IT猿手1 年前
开发语言·算法·数学建模·matlab·机器人·深度强化学习·多目标优化算法
基于遗传算法GA的机器人栅格地图最短路径规划,可以自定义地图及起始点(提供MATLAB代码)遗传算法是一种基于生物进化原理的优化算法,常用于求解复杂问题。在机器人栅格地图最短路径规划中,遗传算法可以用来寻找最优路径。
IT猿手1 年前
开发语言·算法·数学建模·matlab·深度强化学习·多目标优化算法
群智能优化算法:巨型犰狳优化算法(GAO)求解23个基准函数(提供MATLAB代码)巨型犰狳优化算法(Giant Armadillo Optimization,GAO)由Omar Alsayyed等人于2023年提出,该算法模仿了巨型犰狳在野外的自然行为。GAO设计的基本灵感来自巨型犰狳向猎物位置移动和挖掘白蚁丘的狩猎策略。GAO理论在两个阶段进行表达和数学建模:(i)基于模拟巨型犰狳向白蚁丘的运动的探索,以及(ii)基于模拟巨型犰狳的挖掘技能以捕食和撕裂白蚁丘的开发。
IT猿手1 年前
开发语言·python·算法·数学建模·matlab·深度强化学习·多目标优化算法
2024最新算法:电鳗觅食优化算法(Electric eel foraging optimization,EEFO)求解23个基准函数(提供MATLAB代码)电鳗觅食优化算法(Electric eel foraging optimization,EEFO)由Weiguo Zhao等人提出的一种元启发算法,EEFO从自然界中电鳗表现出的智能群体觅食行为中汲取灵感。该算法对四种关键的觅食行为进行数学建模:相互作用、休息、狩猎和迁徙,以在优化过程中提供探索和利用。此外,还开发了一个能量因子来管理从全球搜索到本地搜索的过渡以及搜索空间中探索和开发之间的平衡。
IT猿手2 年前
人工智能·python·算法·matlab·边缘计算·强化学习·深度强化学习
粒子群优化算法(Particle Swarm Optimization,PSO)求解基于移动边缘计算的任务卸载与资源调度优化(提供MATLAB代码)移动边缘计算的任务卸载与资源调度优化原理是通过利用配备计算资源的移动无人机来为本地资源有限的移动用户提供计算卸载机会,以减轻用户设备的计算负担并提高计算性能。具体原理如下:
IT猿手2 年前
人工智能·python·算法·matlab·边缘计算·强化学习·深度强化学习
基于差分进化算法(Differential Evolution Algorithm,DE)的移动边缘计算的任务卸载与资源调度研究(提供MATLAB代码)移动边缘计算的任务卸载与资源调度是指在移动设备和边缘服务器之间,将部分计算任务从移动设备卸载到边缘服务器,并合理分配资源以提高系统性能和降低能耗。 在本文所研究的区块链网络中,优化的变量为:挖矿决策(即 m)和资源分配(即 p 和 f),目标函数是使所有矿工的总利润最大化。问题可以表述为:
HuggingFace2 年前
huggingface·深度强化学习·hugging face
最新 Hugging Face 强化学习课程(中文版)来啦!人工智能中最引人入胜的话题莫过于深度强化学习 (Deep Reinforcement Learning) 了,我们在 2022 年 12 月 5 日开启了《深度强化学习课程 v2.0》的课程学习,有来自全球众多学员们的参加。课程已经完成更新,并且发布在 Hugging Face 官网 https://hf.co/learn/deep-rl-course/
MocapLeader2 年前
算法·机器人·深度强化学习·中科院·meca·多目标包围·关系图
中科院自动化所:基于关系图深度强化学习的机器人多目标包围问题新算法摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的深度强化学习方法,应用于多目标避碰包围(MECA)问题,使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。研究成果在2022年ICRA大会发表。
您家豆子2 年前
机器人·深度强化学习·中科院·meca·多目标包围·关系图·自动化所
中科院自动化所:基于关系图深度强化学习的机器人多目标包围问题新算法摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的深度强化学习方法,应用于多目标避碰包围问题(MECA),使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。研究成果在2022年ICRA大会发表。
IT猿手2 年前
开发语言·python·无人机·强化学习·深度强化学习·qlearning
强化学习应用(一):基于Q-learning的无人机物流路径规划研究(提供Python代码)Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。
IT猿手2 年前
开发语言·python·无人机·强化学习·深度强化学习·tsp
强化学习应用(二):基于Q-learning的无人机物流路径规划研究(提供Python代码)Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。