深度强化学习

Code-world-11 个月前
linux·pytorch·深度学习·cuda·深度强化学习
Ubuntu系统安装NVIDIA驱动、CUDA、PyTorch等GPU深度学习环境1.1 官网下载Linux安装文件。下载链接: 点击跳转1.2 安装Anaconda。进入文件下载位置,文件夹空白处右键打开终端,终端输入以下命令安装,后面一直Yes即可。
ssf-yasuo6 个月前
论文阅读·笔记·深度学习·深度强化学习·world model
TWM论文阅读笔记
HuggingFace6 个月前
rlhf·深度强化学习
将强化学习重新引入 RLHF我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法,RLOO 是一种新的在线 RLHF 训练算法,旨在使其更易于访问和实施。特别是, RLOO 需要的 GPU 内存更少,并且达到收敛所需的挂钟时间也更短。如下面的图表所示:
ssf-yasuo6 个月前
论文阅读·笔记·深度学习·深度强化学习·world model
STORM论文阅读笔记
喝凉白开都长肉的大胖子9 个月前
人工智能·vscode·python·深度学习·jupyter·visual studio·深度强化学习
VSCode配置Python教程VScode配置python:https://zhangguohao.blog.csdn.net/article/details/105040139
IT猿手9 个月前
开发语言·算法·数学建模·matlab·机器人·深度强化学习·多目标优化算法
基于遗传算法GA的机器人栅格地图最短路径规划,可以自定义地图及起始点(提供MATLAB代码)遗传算法是一种基于生物进化原理的优化算法,常用于求解复杂问题。在机器人栅格地图最短路径规划中,遗传算法可以用来寻找最优路径。
IT猿手9 个月前
开发语言·算法·数学建模·matlab·深度强化学习·多目标优化算法
群智能优化算法:巨型犰狳优化算法(GAO)求解23个基准函数(提供MATLAB代码)巨型犰狳优化算法(Giant Armadillo Optimization,GAO)由Omar Alsayyed等人于2023年提出,该算法模仿了巨型犰狳在野外的自然行为。GAO设计的基本灵感来自巨型犰狳向猎物位置移动和挖掘白蚁丘的狩猎策略。GAO理论在两个阶段进行表达和数学建模:(i)基于模拟巨型犰狳向白蚁丘的运动的探索,以及(ii)基于模拟巨型犰狳的挖掘技能以捕食和撕裂白蚁丘的开发。
IT猿手10 个月前
开发语言·python·算法·数学建模·matlab·深度强化学习·多目标优化算法
2024最新算法:电鳗觅食优化算法(Electric eel foraging optimization,EEFO)求解23个基准函数(提供MATLAB代码)电鳗觅食优化算法(Electric eel foraging optimization,EEFO)由Weiguo Zhao等人提出的一种元启发算法,EEFO从自然界中电鳗表现出的智能群体觅食行为中汲取灵感。该算法对四种关键的觅食行为进行数学建模:相互作用、休息、狩猎和迁徙,以在优化过程中提供探索和利用。此外,还开发了一个能量因子来管理从全球搜索到本地搜索的过渡以及搜索空间中探索和开发之间的平衡。
IT猿手1 年前
人工智能·python·算法·matlab·边缘计算·强化学习·深度强化学习
粒子群优化算法(Particle Swarm Optimization,PSO)求解基于移动边缘计算的任务卸载与资源调度优化(提供MATLAB代码)移动边缘计算的任务卸载与资源调度优化原理是通过利用配备计算资源的移动无人机来为本地资源有限的移动用户提供计算卸载机会,以减轻用户设备的计算负担并提高计算性能。具体原理如下:
IT猿手1 年前
人工智能·python·算法·matlab·边缘计算·强化学习·深度强化学习
基于差分进化算法(Differential Evolution Algorithm,DE)的移动边缘计算的任务卸载与资源调度研究(提供MATLAB代码)移动边缘计算的任务卸载与资源调度是指在移动设备和边缘服务器之间,将部分计算任务从移动设备卸载到边缘服务器,并合理分配资源以提高系统性能和降低能耗。 在本文所研究的区块链网络中,优化的变量为:挖矿决策(即 m)和资源分配(即 p 和 f),目标函数是使所有矿工的总利润最大化。问题可以表述为:
HuggingFace1 年前
huggingface·深度强化学习·hugging face
最新 Hugging Face 强化学习课程(中文版)来啦!人工智能中最引人入胜的话题莫过于深度强化学习 (Deep Reinforcement Learning) 了,我们在 2022 年 12 月 5 日开启了《深度强化学习课程 v2.0》的课程学习,有来自全球众多学员们的参加。课程已经完成更新,并且发布在 Hugging Face 官网 https://hf.co/learn/deep-rl-course/
MocapLeader1 年前
算法·机器人·深度强化学习·中科院·meca·多目标包围·关系图
中科院自动化所:基于关系图深度强化学习的机器人多目标包围问题新算法摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的深度强化学习方法,应用于多目标避碰包围(MECA)问题,使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。研究成果在2022年ICRA大会发表。
您家豆子1 年前
机器人·深度强化学习·中科院·meca·多目标包围·关系图·自动化所
中科院自动化所:基于关系图深度强化学习的机器人多目标包围问题新算法摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的深度强化学习方法,应用于多目标避碰包围问题(MECA),使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。研究成果在2022年ICRA大会发表。
IT猿手1 年前
开发语言·python·无人机·强化学习·深度强化学习·qlearning
强化学习应用(一):基于Q-learning的无人机物流路径规划研究(提供Python代码)Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。
IT猿手1 年前
开发语言·python·无人机·强化学习·深度强化学习·tsp
强化学习应用(二):基于Q-learning的无人机物流路径规划研究(提供Python代码)Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。
zzz的学习笔记本1 年前
深度强化学习
无线通信:基于深度强化学习面向非地面网络的智能无线资源管理机制与算法研究 [1]曹阳. 面向非地面网络的智能无线资源管理机制与算法研究[D]. 电子科技大学, 2023. DOI: 10.27005/d.cnki.gdzku.2023.000168.
von Neumann1 年前
人工智能·强化学习·深度强化学习
深入理解强化学习——多臂赌博机:上下文相关的赌博机(关联搜索任务)分类目录:《深入理解强化学习》总目录《深入理解强化学习——多臂赌博机》系列文章到此为止,只考虑了非关联的任务,对它们来说,没有必要将不同的动作与不同的情境联系起来。在这些任务中,当任务是平稳的时候,学习器会试图寻找一个最佳的动作;当任务是非平稳的时候,最佳动作会随着时间的变化而改变,此时它会试着去追踪最佳动作。然而,在一般的强化学习任务中,往往有不止一种情境,它们的目标是学习一种策略:一个从特定情境到最优动作的映射。为了进行一般性问题分析,下面我们简要地探讨从非关联任务推广到关联任务的最简单的方法。
von Neumann1 年前
人工智能·强化学习·深度强化学习·多臂赌博机·k臂赌博机
深入理解强化学习——多臂赌博机:梯度赌博机算法的数学证明分类目录:《深入理解强化学习》总目录通过将梯度赌博机算法理解为梯度上升的随机近似,我们可以深人了解这一算法的本质。在精确的梯度上升算法中,每一个动作的偏好函数 H t ( a ) H_t(a) Ht(a)与增量对性能的影响成正比: H t + 1 ( a ) = H t ( a ) + α ∂ E [ R t ] ∂ H t ( a ) H_{t+1}(a)=H_t(a)+\alpha\frac{\partial E[R_t]}{\partial H_t(a)} Ht+1(a)=Ht(a)+α∂Ht(a)
von Neumann1 年前
人工智能·强化学习·深度强化学习
深入理解强化学习——多臂赌博机:增量式实现分类目录:《深入理解强化学习》总目录至今我们讨论的动作—价值方法都把动作价值作为观测到的收益的样本均值来估计。下面我们探讨如何才能以一种高效的方式计算这些均值,尤其是如何保持常数级的内存需求和常数级的单时刻计算量。
von Neumann1 年前
人工智能·深度学习·机器学习·强化学习·深度强化学习
深入理解强化学习——智能体的类型:有模型强化学习智能体与免模型强化学习智能体分类目录:《深入理解强化学习》总目录根据智能体学习的事物不同,我们可以把智能体进行归类。基于价值的智能体(Value-based agent)显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体(Policy-based Agent)直接学习策略,我们给它一个状态,它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了Actor-Critic智能体(Actor-Critic Agent)。这一类智能体把策