马尔科夫决策

关于强化学习小记强化学习（Reinforcement Learning, RL）是一种机器学习方法，通过**智能体（Agent）在环境（Environment）中不断尝试不同的动作（Action），并根据环境给予的奖励（Reward）**来学习最优策略（Policy），从而最大化长期回报（Return）。

不去幼儿园

【强化学习】Double DQN(Double Deep Q-Network)算法📢本篇文章是博主强化学习（RL）领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在👉强化学习专栏：

深度强化学习（三）马尔科夫决策过程参考文章：https://blog.csdn.net/taka_is_beauty/article/details/88356375

我是有底线的