【深度学习】深度学习和强化学习算法——深度 Q 网络DQN

什么是DQN
- [DQN 的背景](#DQN 的背景)
- [DQN 训练流程](#DQN 训练流程)
[2 DQN 的核心思想](#2 DQN 的核心思想)
- [2.1 经验回放（Experience Replay）](#2.1 经验回放（Experience Replay）)
- [2.2 目标网络（Target Network）](#2.2 目标网络（Target Network）)
- [2.3 ε-贪心策略（ε-Greedy Policy）](#2.3 ε-贪心策略（ε-Greedy Policy）)
- [2.4 误差裁剪（Clipping the Loss）](#2.4 误差裁剪（Clipping the Loss）)
总结
参考

深度 Q 网络（DQN）是一种结合深度学习和强化学习的算法，主要用于解决高维状态空间的强化学习问题。DQN 由 Google DeepMind 在 2015 年提出，并成功应用于 Atari 游戏，使 AI 能够超越人类玩家。

什么是DQN

Q-learning是一种经典的强化学习算法，而DQN（Deep Q-Network），即深度Q网络，是一种基于深度学习的Q-Learing算法和强化学习算法，它是首个成功将深度学习应用于解决强化学习任务的算法之一。

DQN基于值迭代（Value Iteration）的思想，通过估计每个状态动作对的价值函数Q值来指导智能体在每个状态下选择最佳的动作。简单来说，就是通过深度学习训练，得到一个函数Q（s，a）可以根据输入状态s,得到最佳动作a。

在 Q-learning 传统强化学习算法中，我们使用 Q 表（Q-table）存储每个状态-动作对的 Q 值。然而，当状态空间变得巨大甚至是连续的时，Q 表的方法变得不可行，因为：

为了解决高维状态空间问题，DQN 使用深度神经网络（Deep Neural Network, DNN）来逼近 Q 值函数。这使得 DQN 能够处理复杂的环境，如图像输入（Atari 游戏）或高维控制任务。

DQN 主要基于 Q-learning，但引入了深度神经网络来逼近 Q 值函数 Q(s,a)，并使用了以下关键技术：

在标准 Q-learning 中，每次状态转移后立即更新 Q 值，这可能导致：

DQN 通过引入 经验回放缓冲区（Replay Memory） 来存储过去的经验 (s,a,r,s′ )，并在训练时 随机采样 进行学习，从而：

经验回放示意图：

1、代理与环境交互，生成经验 (s,a,r,s′ )。

2、将经验存入回放缓冲区（FIFO 队列）。

3、随机采样一批经验训练神经网络。

为了平衡探索（Exploration）和利用（Exploitation），DQN 使用 ε-贪心策略：

这样可以减少异常值对梯度的影响，提高训练稳定性。

DQN 通过使用深度神经网络逼近 Q 值，解决了高维状态空间问题，并通过经验回放和目标网络提高训练稳定性。它是强化学习领域的里程碑，为后续如 Double DQN, Dueling DQN, Rainbow DQN 等方法奠定了基础。