强化学习论文(Double-DQN)

介绍:

本论文作者主要是解决了在Q-Learning方法中对于q-value的过高估计的问题。

q-value高估问题:

首先我们看Q-Learning的更新公式:

其中:

这里用来近似下一个状态的Q值,算法的迭代结果就是将估计的Q值,不断朝着方向去逼近。

从直观上来理解Q值的高估:

根据Q值的定义

显然,的,这就造成了迭代结果会对Q值进行高估。

为了解决这个问题,作者提出了Double Q-Learning,通过用两个价值函数网络,将动作选择网络和动作评估网络分开,避免过高估计问题。

原始的Q-Leaning的目标是:
改进的后的Double Q-Learning的目标表示:

++从公式可以看出,在新的目标中,选择动作,还是根据计算的结果,求argmax,但是用来估计目标Q-value。++

论文中,给出了一个定理和对应的实验,讲明,这个高估的误差是随着动作空间的增大而增大的。

这个定理之处,当动作空间,且Q-value的方差有,则有:

  • Double Q-Learning的下界绝对误差为0

从实验结果可以看出,Double Q-Learning是无偏估计,并没有随着m的增大而过度变化,基本在0附近。

Double DQN

从实验结果第一排图像可以看出Double DQN对Q value的估计明显更接近于真实值,传统DQN明显高估很多

从第二排图像可以看出,DQN训练也更不稳定,说明高估问题会明显影响训练的稳定性。

原文中没有给出伪代码,这里我自己写一个:
python 复制代码
Algorithm: Double Deep Q-Network (DDQN)

Initialize:
    当前网络 Q,参数 θ 随机初始化
    目标网络 Q_target,参数 θ_target ← θ
    经验回放池 D,容量为 N
    目标网络更新步数 C
    训练轮数 M
    每轮最大步数 T
    折扣因子 γ
    探索率 ε(ε-greedy策略)
    学习率 α
    小批量大小 batch_size

for episode = 1 to M do:
    初始化状态 s
    for t = 1 to T do:
        // 动作选择(ε-greedy策略)
        with probability ε:
            a = 随机动作
        else:
            a = argmax_a Q(s, a; θ)  // 使用当前网络选择动作
        
        // 执行动作,观察奖励和下一状态
        执行动作 a,得到奖励 r 和下一状态 s'
        
        // 存储经验
        将经验 (s, a, r, s') 存入 D
        
        // 更新状态
        s = s'
        
        // 经验回放和网络更新
        if 可以开始采样(如 D 中经验足够多):
            从 D 中随机采样一个小批量,大小为 batch_size
            
            // 计算小批量中每个样本的目标值 y_j
            for each 样本 j in mini-batch:
                if s' 是终止状态:
                    y_j = r_j
                else:
                    // Double DQN 核心:动作选择与评估分离
                    // 1. 用当前网络选择下一个状态的最优动作
                    a_max = argmax_a Q(s'_j, a; θ)
                    // 2. 用目标网络评估该动作的价值
                    y_j = r_j + γ * Q_target(s'_j, a_max; θ_target)
            
            // 计算损失(均方误差)
            Loss = (1/batch_size) * Σ_j (y_j - Q(s_j, a_j; θ))^2
            
            // 梯度下降更新当前网络参数
            θ = θ - α * ∇_θ Loss
            
            // 定期更新目标网络(硬更新)
            if global_step % C == 0:
                θ_target = θ
    end for
end for
相关推荐
何陋轩16 小时前
Spring AI Function Calling:让AI调用你的Java方法
人工智能·后端·ai编程
Agent手记16 小时前
空运智能装箱规划自动化、落地方法与合规适配:2026年Agent矩阵驱动的技术演进与实操指引
运维·人工智能·ai·矩阵·自动化
七牛开发者16 小时前
不写框架、不用 npm,我用 AI Coding 做了一个家庭记忆站
前端·人工智能·npm
FelixZhang02816 小时前
工业时序工况识别项目复盘:从深度学习探索到 LightGBM/CatBoost 落地
人工智能·深度学习·机器学习·gru·lstm·边缘计算·boosting
智能相对论16 小时前
应用“深水区”正在被攻克,轮足机器人迎来拐点时刻
大数据·人工智能·机器人
专利观察员16 小时前
用AI进行专利智能检索分析:拆解人形机器人半马跑赢的秘密/跑崩的解法(科技行业专利检索、专利分析实例)
人工智能·科技·机器人
得一录16 小时前
TradingAgents金融股票分析的最小实现
开发语言·数据库·人工智能·python
俊基科技16 小时前
AR1105 声源定位模组 矿场智能安全监测与设备全生命周期运维技术方案
人工智能·声源定位·语音模组
Zzj_tju16 小时前
视觉语言模型技术指南:LLaVA、Qwen-VL、MiniCPM-V 等主流方案差别在哪?
人工智能·语言模型·自然语言处理
咚咚王者16 小时前
人工智能之RAG工程 第五章 RAG 热门项目解析与实战
人工智能