强化学习

误伤这又何妨8 天前
强化学习
【动手学强化学习】03马尔可夫决策过程马尔可夫决策过程始终贯穿强化学习,要学好强化学习,必须掌握马尔可夫决策过程的基础知识。与多臂老虎机不同,马尔可夫决策过程包含状态信息以及状态转移机制。
panbaoran91311 天前
机器学习·迁移学习·强化学习
【问】强学如何支持 迁移学习呢?案例:从CartPole-v1迁移到MountainCar-v0接下来,我们将CartPole-v1环境中训练好的模型迁移到MountainCar-v0环境中,并进行微调。以下是代码示例:
liuhui24415 天前
人工智能·深度学习·强化学习·深度强化学习
深度强化学习实践 Maxim Lapan 章节6:深度Q-Network这本书的前面的章节主要是之前的学习过的内容,我就不再重复了,这一章开始正式的开始deep reinforcement的内容的研究,我们将会参考DQN的实现的来完成一个atari的游戏的学习,原来的代码对于新的环境的适配程度非常差,所以我这边会一边的学习,一边的修改的代码。这一章因为我已经看完了,所以只是简单的介绍里面的内容,因为DQN并不是一个非常好用的学习模型,后面应该还会有很多优化的方案,所以我们只是学习到了12分左右。
、达西先生16 天前
强化学习·端到端·rl
强化学习笔记6——异同策略、AC、等其他模型总结举例QLearning为什么是异策略? 生成动作时e的概率从Q表选,1-e概况随机。 更新策略时,贪心策略选择Q_max作为动作。
又见阿郎17 天前
ai·强化学习·deepseek·grpo
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型首发自个人公众号:阿郎小哥的随笔驿站DeepSeek R1系列建议阅读之前的系列文章:聊聊DeepSeek R1的一些总结
cxr82820 天前
分布式·强化学习·智能体
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统在实际应用中(例如生产调度、资源分配等),多个自治决策单元(智能体)需要在一个共享的环境中协同工作,每个智能体只能获取局部信息(例如自身状态或部分环境观测),但它们的行为会相互影响。传统的单智能体强化学习(RL)模型难以直接适用于这种场景,因此需要多智能体强化学习(MARL)的方法。
、达西先生20 天前
笔记·强化学习·ppo
强化学习笔记(5)——PPOPPO视频课程来源 首先理解采样期望的转换变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加 经过转换后变成 x在q(x)分布下,f(x)*p(x)/q(x) 的期望。
大模型之路22 天前
llm·强化学习·deepseek·deepseekr1
DeepSeek Janus-Pro:多模态AI模型的突破与创新近年来,人工智能领域取得了显著的进展,尤其是在多模态模型(Multimodal Models)方面。多模态模型能够同时处理和理解文本、图像等多种类型的数据,极大地扩展了AI的应用场景。DeepSeek(DeepSeek-V3 深度剖析:下一代 AI 模型的全面解读)公司最新发布的Janus-Pro模型,正是在这一领域的一次重大突破。本文将深入探讨Janus-Pro的技术特点、创新之处以及其在多模态任务中的表现。
xidianjiapei00123 天前
人工智能·搜索引擎·语言模型·强化学习·deepseek-r1
DeepSeek-R1 论文解读 —— 强化学习大语言模型新时代来临?近年来,人工智能(AI)领域发展迅猛,大语言模型(LLMs)为通用人工智能(AGI)的发展开辟了道路。OpenAI 的 o1 模型表现非凡,它引入的创新性推理时缩放技术显著提升了推理能力,不过该模型是闭源的。
若年封尘1 个月前
开源·openai·强化学习·deepseek·deepseek-r1
OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读2025年1月20日,DeepSeek-R1 发布,并同步开源模型权重。截至目前,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。
让我试试哈1 个月前
人工智能·机器学习·概率论·强化学习
与机器学习相关的概率论重要概念的介绍和说明概率论一些重要概念的介绍和说明 1、 试验 (1)试验是指在特定条件下,对某种方法、技术、设备或产品(即,事物)进行测试或验证的过程。 (2)易混淆的概念是,实验。实验,是指在受控条件下,为验证或探索某种科学假设、理论或自然规律而进行的系统性试验。即,实验是特殊的试验。 (3)试验和实验的区别有两个方面。A,第一个方面是目的,实验常用于验证科学假设或探索自然规律,而试验用于检验方法,事物的效果和可行性。B,第二个方面是控制条件,试验的控制条件相对宽松,它注重实际结果。而,实验有严格的限制和数据精确度。
不去幼儿园1 个月前
人工智能·python·算法·机器学习·强化学习·个人总结
【博客之星】2024年度个人成长、强化学习算法领域总结📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。
人工智能-钱钱1 个月前
强化学习·蒙特卡洛方法
强化学习-蒙特卡洛方法上一篇博客介绍的是model-base的方法,本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型。   如何在没有模型的情况下去进行估计,有一个重要的思想:Monte Carlo estimation。下面以抛硬币的例子为大家讲解该思想。
我爱C编程1 个月前
matlab·机器人·强化学习·qlearning·机器人迷宫路线搜索
基于Qlearning强化学习的机器人迷宫路线搜索算法matlab仿真目录1.算法仿真效果2.算法涉及理论知识概要2.1 Q-learning理论2.2 机器人迷宫路线搜索具体实现
阿里云大数据AI技术1 个月前
人工智能·llm·强化学习
云上一键部署 DeepSeek-V3 模型,阿里云PAI Model Gallery 最佳实践DeepSeek-V3 是 DeepSeek 发布的 MoE(Mixture-of-Experts)大语言模型,总参数量为6710亿,每个 token 激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3 采用了 MLA(Multi-head Latent Attention)和 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标,以提升性能。DeepSeek-V3在14.8万亿个多样且高质
deephub1 个月前
人工智能·pytorch·python·深度学习·强化学习
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。该模型在现代基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)中发挥着关键作用,其主要目标是构建可靠的环境动态预测模型。通过这些学习得到的模型,智能体能够模拟未来轨迹并进行前瞻性的行为规划。
不去幼儿园2 个月前
人工智能·算法·机器学习·强化学习·马尔科夫决策
【强化学习】Double DQN(Double Deep Q-Network)算法📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:
deephub2 个月前
人工智能·pytorch·神经网络·强化学习
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中,软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。
AIzealot无2 个月前
人工智能·深度学习·语言模型·大模型·强化学习·人类偏好
论文解读之learning to summarize with human feedback最近在看大模型训练相关的论文,预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback
martian6652 个月前
人工智能·算法·机器学习·强化学习
【人工智能机器学习基础篇】——深入详解强化学习之常用算法Q-Learning与策略梯度,掌握智能体与环境的交互机制强化学习(Reinforcement Learning, RL)作为机器学习的一个重要分支,近年来在多个领域取得了显著成果。从棋类游戏的人机对战到自主驾驶汽车,强化学习技术展示了其强大的潜力。本文将深入探讨强化学习中的常用算法,重点介绍Q-Learning和策略梯度方法,详细阐述其关键概念、核心原理、示例及主要应用,帮助读者全面掌握智能体与环境的交互机制。