【深度学习】深度学习和强化学习算法——深度 Q 网络DQN

深度 Q 网络(Deep Q-Network, DQN) 详解

  • 什么是DQN
    • [DQN 的背景](#DQN 的背景)
    • [DQN 训练流程](#DQN 训练流程)
  • [2 DQN 的核心思想](#2 DQN 的核心思想)
    • [2.1 经验回放(Experience Replay)](#2.1 经验回放(Experience Replay))
    • [2.2 目标网络(Target Network)](#2.2 目标网络(Target Network))
    • [2.3 ε-贪心策略(ε-Greedy Policy)](#2.3 ε-贪心策略(ε-Greedy Policy))
    • [2.4 误差裁剪(Clipping the Loss)](#2.4 误差裁剪(Clipping the Loss))
  • 总结
  • 参考

深度 Q 网络(DQN)是一种结合 深度学习 和 强化学习 的算法,主要用于解决高维状态空间的强化学习问题。DQN 由 Google DeepMind 在 2015 年提出,并成功应用于 Atari 游戏,使 AI 能够超越人类玩家。

什么是DQN

Q-learning是一种经典的强化学习算法,而DQN(Deep Q-Network),即深度Q网络,是一种基于深度学习的Q-Learing算法和强化学习算法,它是首个成功将深度学习应用于解决强化学习任务的算法之一。

DQN基于值迭代(Value Iteration)的思想,通过估计每个状态动作对的价值函数Q值来指导智能体在每个状态下选择最佳的动作。简单来说,就是通过深度学习训练,得到一个函数Q(s,a)可以根据输入状态s,得到最佳动作a。

DQN 的背景

在 Q-learning 传统强化学习算法中,我们使用 Q 表(Q-table) 存储每个状态-动作对的 Q 值。然而,当状态空间变得巨大甚至是连续的时,Q 表的方法变得不可行,因为:

  • 状态数量过多,导致 Q 表存储需求爆炸。
  • 许多状态可能没有被访问过,导致学习效率低。

为了解决 高维状态空间 问题,DQN 使用 深度神经网络(Deep Neural Network, DNN) 来逼近 Q 值函数。这使得 DQN 能够处理复杂的环境,如图像输入(Atari 游戏)或高维控制任务。

DQN 训练流程

2 DQN 的核心思想

DQN 主要基于 Q-learning,但引入了深度神经网络来逼近 Q 值函数 Q(s,a),并使用了以下关键技术:

  • 经验回放(Experience Replay)
  • 目标网络(Target Network)
  • ε-贪心策略(ε-Greedy Policy)
  • 误差裁剪(Clipping the Loss)

2.1 经验回放(Experience Replay)

在标准 Q-learning 中,每次状态转移后立即更新 Q 值,这可能导致:

  • 数据相关性高(连续状态高度相关),影响神经网络训练。
  • 训练数据利用率低。

DQN 通过引入 经验回放缓冲区(Replay Memory) 来存储过去的经验 (s,a,r,s′ ),并在训练时 随机采样 进行学习,从而:

  • 去相关性(Decorrelation),避免连续样本影响学习。
  • 提高数据利用率,减少样本浪费。

经验回放示意图:

1、代理与环境交互,生成经验 (s,a,r,s′ )。

2、将经验存入回放缓冲区(FIFO 队列)。

3、随机采样一批经验训练神经网络。

2.2 目标网络(Target Network)

2.3 ε-贪心策略(ε-Greedy Policy)

为了平衡 探索(Exploration) 和 利用(Exploitation),DQN 使用 ε-贪心策略:

  • 以概率 ϵ 选择随机动作(探索)
  • 以概率 1−ϵ 选择 Q 值最大的动作(利用)
  • ε 会随着训练逐渐减少,初始探索较多,后期更倾向于利用已有经验。

2.4 误差裁剪(Clipping the Loss)

这样可以减少异常值对梯度的影响,提高训练稳定性。

总结

DQN 通过使用 深度神经网络 逼近 Q 值,解决了高维状态空间问题,并通过 经验回放 和 目标网络 提高训练稳定性。它是强化学习领域的里程碑,为后续如 Double DQN, Dueling DQN, Rainbow DQN 等方法奠定了基础。

参考

相关推荐
小怪兽会微笑16 分钟前
PyTorch Tensor 形状变化操作详解
人工智能·pytorch·python
Erekys43 分钟前
视觉分析之边缘检测算法
人工智能·计算机视觉·音视频
livefan1 小时前
我国首条大型无人机城际低空物流航线成功首航
人工智能·无人机
唔皇万睡万万睡1 小时前
数字水印嵌入及提取系统——基于小波变换GUI
人工智能·计算机视觉
IT古董1 小时前
【深度学习】计算机视觉(CV)-目标检测-DETR(DEtection TRansformer)—— 基于 Transformer 的端到端目标检测
深度学习·目标检测·计算机视觉
yatingliu20191 小时前
代码随想录算法训练营第六天| 242.有效的字母异位词 、349. 两个数组的交集、202. 快乐数 、1. 两数之和
c++·算法
Jackilina_Stone1 小时前
【论文阅读笔记】知识蒸馏:一项调查 | CVPR 2021 | 近万字翻译+解释
论文阅读·人工智能·深度学习·蒸馏
高力士等十万人2 小时前
OpenCV中的边缘检测
人工智能·opencv·计算机视觉
uhakadotcom2 小时前
Google DeepMind最近发布了SigLIP 2
人工智能·算法·架构
咩咩大主教2 小时前
人工智能神经网络
人工智能·python·深度学习·神经网络·机器学习·bp神经网络