Double DQN(DDQN)详解与实现

Double DQN(DDQN)详解与实现

    • [0. 前言](#0. 前言)
    • [1. DDQN 原理](#1. DDQN 原理)
    • [2. 使用 Keras 实现 DDQN](#2. 使用 Keras 实现 DDQN)
    • [3. 结果分析](#3. 结果分析)

0. 前言

深度 Q 网络 (Deep Q-Network, DQN)中,目标 Q 网络负责选择并评估每个动作,这会导致 Q 值被高估。为解决此问题,Double DQN (DDQN) 提出使用 Q 网络选择动作,而用目标 Q 网络评估动作。在本节中,我们将介绍 DDQN 的基本原理,并使用 Keras 实现 DDQN

1. DDQN 原理

DQN 中,智能体使用相同的Q值来选择和评估一个动作。这可能会导致学习中的最大化偏差。例如,假设对于某个状态S,所有可能的动作的真实Q值都为零。此时,DQN 估计值将会有一些高于零的值和一些低于零的值,由于选择具有最大Q值的动作,并且后续使用相同(最大化的)估计值函数评估每个动作的Q值,智能体就会高估Q值,换句话说,智能体过于乐观,这可能导致训练不稳定和低质量的策略。为了解决这个问题,DeepMind 提出了 Double DQN 算法。在 Double DQN 中,有两个具有相同结构但权重不同的Q网络。其中一个Q网络使用ε-贪婪策略确定动作,另一个Q网络确定其值 ( Q t a r g e t Q_{target} Qtarget)。

DQN 中, Q t a r g e t Q_{target} Qtarget 目标计算方式如下:
Q t a r g e t = R t + 1 + γ max ⁡ A Q ( S t + 1 , A t ) Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1}, A_t) Qtarget=Rt+1+γAmaxQ(St+1,At)

其中,动作 A A A 是使用相同的 DQN Q ( S , A ; W ) Q(S,A; W) Q(S,A;W) 选择的,其中 W W W 是网络的训练参数:
Q t a r g e t = R t + 1 + γ max ⁡ A Q ( S t + 1 , a r g m a x t Q ( S , A ; W ) ; W ) Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1},argmax_tQ(S,A;W); W) Qtarget=Rt+1+γAmaxQ(St+1,argmaxtQ(S,A;W);W)

Double DQN 中,目标方程有所不同,DQN Q ( S , A ; W ) Q(S,A;W) Q(S,A;W) 用于确定动作,而 DQN Q ( S , A ; W ′ ) Q(S,A;W') Q(S,A;W′) 用于计算目标。因此,方程将改写为:
Q t a r g e t = R t + 1 + γ max ⁡ A Q ( S t + 1 , a r g m a x t Q ( S , A ; W ) ; W ′ ) Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1},argmax_tQ(S,A;W); W') Qtarget=Rt+1+γAmaxQ(St+1,argmaxtQ(S,A;W);W′)

这一简单的更改减少高估Q值的可能性,并且能够更快、更可靠地训练智能体。

2. 使用 Keras 实现 DDQN

定义 DDQNAgent 类,该类继承自DQNAgent 类。我们仅需重写 get_target_q_value() 方法,即可实现对最大Q值计算方式的修改。

python 复制代码
class DDQNAgent(DQNAgent):
    def __init__(self,
                 state_space, 
                 action_space, 
                 episodes=500):
        super().__init__(state_space, 
                         action_space, 
                         episodes)
        # Q Network weights filename
        self.weights_file = 'ddqn_cartpole.h5'
        print("-------------DDQN------------")

    def get_target_q_value(self, next_state, reward):
        # max Q value among next state's actions
        # DDQN
        # current Q Network selects the action
        # a'_max = argmax_a' Q(s', a')
        action = np.argmax(self.q_model.predict(next_state)[0])
        # target Q Network evaluates the action
        # Q_max = Q_target(s', a'_max)
        q_value = self.target_q_model.predict(\
                                      next_state)[0][action]

        # Q_max = reward + gamma * Q_max
        q_value *= self.gamma
        q_value += reward
        return q_value

3. 结果分析

10 次运行的平均结果中,DDQN 算法在 971 个训练回合内解决 CartPole-v0 问题。DQNDDQN 都证明了深度学习能够增强Q学习的扩展能力,使其可以解决具有连续状态空间和离散动作空间的问题。

相关推荐
Francek Chen9 小时前
【自然语言处理】预训练02:近似训练
人工智能·pytorch·深度学习·自然语言处理
碧海银沙音频科技研究院9 小时前
i2s封装成自己定义8路音频数据发送方法
arm开发·人工智能·深度学习·算法·音视频
java1234_小锋10 小时前
PyTorch2 Python深度学习 - 数据集与数据加载
开发语言·python·深度学习·pytorch2
文火冰糖的硅基工坊12 小时前
[人工智能-大模型-118]:模型层 - RNN状态记忆是如何实现的?是通过带权重的神经元,还是通过张量?
人工智能·rnn·深度学习
rengang6612 小时前
28-Keras:探讨高层神经网络API及其快速原型设计能力
人工智能·python·神经网络·机器学习·keras
哥布林学者12 小时前
吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(四)其他缓解过拟合的方法
深度学习·ai
二进制星辰12 小时前
从零理解LeNet:卷积神经网络的起点与启示
深度学习
CoovallyAIHub13 小时前
超越传统3D生成:OccScene实现感知与生成的跨任务共赢
深度学习·算法·计算机视觉
CoovallyAIHub13 小时前
华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路
深度学习·算法·计算机视觉