强化学习

不去幼儿园4 天前
人工智能·python·算法·机器学习·强化学习·个人总结
【博客之星】2024年度个人成长、强化学习算法领域总结📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。
人工智能-钱钱7 天前
强化学习·蒙特卡洛方法
强化学习-蒙特卡洛方法上一篇博客介绍的是model-base的方法,本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型。   如何在没有模型的情况下去进行估计,有一个重要的思想:Monte Carlo estimation。下面以抛硬币的例子为大家讲解该思想。
我爱C编程13 天前
matlab·机器人·强化学习·qlearning·机器人迷宫路线搜索
基于Qlearning强化学习的机器人迷宫路线搜索算法matlab仿真目录1.算法仿真效果2.算法涉及理论知识概要2.1 Q-learning理论2.2 机器人迷宫路线搜索具体实现
阿里云大数据AI技术14 天前
人工智能·llm·强化学习
云上一键部署 DeepSeek-V3 模型,阿里云PAI Model Gallery 最佳实践DeepSeek-V3 是 DeepSeek 发布的 MoE(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个 token 激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了 MLA(Multi-head Latent Attention)和 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标,以提升性能。DeepSeek-V3在14.8万亿个多样且高质
deephub15 天前
人工智能·pytorch·python·深度学习·强化学习
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。该模型在现代基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)中发挥着关键作用,其主要目标是构建可靠的环境动态预测模型。通过这些学习得到的模型,智能体能够模拟未来轨迹并进行前瞻性的行为规划。
不去幼儿园19 天前
人工智能·算法·机器学习·强化学习·马尔科夫决策
【强化学习】Double DQN(Double Deep Q-Network)算法📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
deephub20 天前
人工智能·pytorch·神经网络·强化学习
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中,软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。
AIzealot无20 天前
人工智能·深度学习·语言模型·大模型·强化学习·人类偏好
论文解读之learning to summarize with human feedback最近在看大模型训练相关的论文,预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback
martian66522 天前
人工智能·算法·机器学习·强化学习
【人工智能机器学习基础篇】——深入详解强化学习之常用算法Q-Learning与策略梯度,掌握智能体与环境的交互机制强化学习(Reinforcement Learning, RL)作为机器学习的一个重要分支,近年来在多个领域取得了显著成果。从棋类游戏的人机对战到自主驾驶汽车,强化学习技术展示了其强大的潜力。本文将深入探讨强化学习中的常用算法,重点介绍Q-Learning和策略梯度方法,详细阐述其关键概念、核心原理、示例及主要应用,帮助读者全面掌握智能体与环境的交互机制。
BQW_25 天前
llm·强化学习·rlhf·偏好对齐·o1模型
【偏好对齐】PRM应该奖励单个步骤的正确性吗?论文地址:《Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning》
不去幼儿园25 天前
人工智能·python·算法·机器学习·强化学习
【强化学习】深度确定性策略梯度算法(DDPG)详解(附代码)📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
张三不嚣张1 个月前
人工智能·算法·强化学习·游戏策划
PPO(近端策略优化)算法基本原理近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,本文将从PPO算法的基础入手,理解从传统策略梯度算法直到PPO算法的演进过程,以及算法迭代过程中的优化细节。
IT猿手1 个月前
开发语言·算法·机器学习·matlab·强化学习
最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解GLSMOP1-GLSMOP9及工程应用---盘式制动器设计,提供完整MATLAB代码麋鹿优化算法(Elephant Herding Optimization,EHO)是2024年提出的一种启发式优化算法,该算法的灵感来源于麋鹿群的繁殖过程,包括发情期和产犊期。在发情期,麋鹿群根据公麋鹿之间的争斗分为不同大小的家族,较强的公麋鹿可以与大量的雌麋鹿组成家族。在产犊期,每个家族的公麋鹿和雌麋鹿繁殖新的幼崽。在优化过程中,优化循环由发情期、产犊期和选择期三个阶段组成。在选择期,所有家族合并,选择最适应的麋鹿群用于下一轮的发情期和产犊期。EHO 将种群分为一组组的群体,每个群体在发情期有一个领导者
凳子花❀1 个月前
人工智能·深度学习·神经网络·ai·强化学习
强化学习与深度学习以及相关芯片之间的区别深度学习是一种基于对数据进行表征学习的方法。它通过构建具有很多层的神经网络(如多层感知机、卷积神经网络CNN、循环神经网络RNN等),自动从大量的数据中学习特征表示。例如,在图像识别任务中,深度学习模型可以从大量的图像数据中学习到图像中不同物体的特征,像边缘、纹理等,进而判断图像中物体的类别。典型的深度学习应用包括图像分类(如分辨一张图片是猫还是狗)、语音识别等。有关各种深度学习网络的区别和联系请查看:CNN、RNN、LSTM和Transformer之间的区别和联系。
我爱C编程1 个月前
matlab·机器人·强化学习·路线规划·qlearning·机器人路线规划
基于Qlearning强化学习的机器人路线规划matlab仿真目录1.算法仿真效果2.算法涉及理论知识概要3.MATLAB核心程序4.完整算法代码文件获得matlab2022a仿真结果如下(完整代码运行后无水印):
IT猿手1 个月前
算法·elk·机器学习·matlab·无人机·聚类·强化学习
基于PWLCM混沌映射的麋鹿群优化算法(Elk herd optimizer,EHO)的多无人机协同路径规划,MATLAB代码参考文献: [1] Al-betar, M.A., Awadallah, M.A., Braik, M.S., Makhadmeh, S.N., & Abu Doush, I. (2024). Elk herd optimizer: a novel nature-inspired metaheuristic algorithm. Artif. Intell. Rev., 57, 48.
IT古董1 个月前
人工智能·机器学习·分类·强化学习
【机器学习】机器学习的基本分类-强化学习(Reinforcement Learning, RL)强化学习(Reinforcement Learning, RL)是一种基于试错的方法,旨在通过智能体与环境的交互,学习能够最大化累积奖励的策略。以下是强化学习的详细介绍。
smartcat20101 个月前
强化学习
PPO系列3 - PPO原理On Policy:采集数据的模型,和训练的模型,是同一个。缺点:慢,生成一批样本数据,训练一次,又要重新生成下一批。
IT猿手1 个月前
android·算法·机器学习·matlab·迁移学习·强化学习·多目标优化
强化学习路径规划:基于SARSA算法的移动机器人路径规划,可以更改地图大小及起始点,可以自定义障碍物,MATLAB代码SARSA(State-Action-Reward-State-Action)是一种在线强化学习算法,用于解决决策问题,特别是在部分可观测的马尔可夫决策过程(POMDPs)中。SARSA算法的核心思想是通过与环境的交互来学习一个策略,该策略能够最大化累积奖励。
smartcat20101 个月前
强化学习
PPO系列4 - Reward模型训练流程:训练Reward模型训练数据:相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。