深度强化学习 Deep Q-learning:把深度学习引入强化学习

    • [Deep Q-learning 引言](#Deep Q-learning 引言)
    • [Deep Q-learning](#Deep Q-learning)

参考:Deep Q-Learning in Reinforcement Learning

Deep Q-learning 引言

Deep Q-learning 是一种利用 深度学习 帮助机器在 复杂情境做出决策 的方法。它在状态数量极大的环境中尤为有效,例如视频游戏或机器人领域。

  • Q-learning 在 小规模问题 上表现良好,但在 图像大量可能情形 等复杂问题上会捉襟见肘。

  • Deep Q-learning 通过使用 神经网络估计价值 ,而不是使用庞大的表格,从而解决了这一问题。

Deep Q-learning 用于编写在 离散动作空间环境 中操作的 AI 代理。离散动作空间指的是具体且 定义明确的动作(例如向左或向右、向上或向下)。

Atari 的《Breakout》展示了一个具有离散动作空间的环境。AI 代理可以向左或向右移动;每个方向的移动都有一定的速度。

如果智能体能够确定 速度 ,那么它就可以拥有连续的动作空间,拥有 无限多可能的动作(包括不同速度的移动)。

Deep Q-learning

Deep Q-learning 是一种强化学习算法,源自 Q-learning 算法。它使用深度神经网络来近似 AI 代理在给定状态下(或每个状态-动作对)的 每个可能动作的 Q Q Q 值 。不同于使用 Q Q Q 表存储 Q Q Q 值的标准 Q-learning ------深度 Q-learning 使用深度神经网络,使 AI 代理能够处理 大规模连续的状态空间

  • Neural Network

    网络近似 Q 值函数 Q ( s , a ; θ ) Q(s,a;\theta) Q(s,a;θ),其中 θ \theta θ 代表 可训练的参数

    例如,在游戏中,输入可能是来自游戏画面的原始像素,输出则是对应每个可能动作的 Q Q Q 值向量。

  • Experience Replay

    为了稳定训练,DQNs 将 过去的经验 ( s , a , r , s ′ ) (s,a,r,s′) (s,a,r,s′) 存储在 回放缓冲区 中。在训练过程中,从缓冲区中 随机抽取小批量经验打破连续经验之间的相关性,并提升泛化能力。

  • Target Network

    使用具有参数 θ − \theta^- θ− 的单独目标网络在更新期间计算目标 Q Q Q 值。目标网络会定期使用主网络的权重进行更新,以确保稳定性。

  • Loss Function

    损失函数度量预测的 Q Q Q 值与目标 Q Q Q 值之间的差异

相关推荐
xixixi777778 小时前
对 两种不同AI范式——Transformer 和 LSTM 进行解剖和对比
人工智能·深度学习·大模型·lstm·transformer·智能·前沿
子午8 小时前
【2026原创】水稻植物病害识别系统~Python+深度学习+人工智能+resnet50算法+TensorFlow+图像识别
人工智能·python·深度学习
AI即插即用8 小时前
超分辨率重建(论文精读) | CVPR 2025 LSRNA:利用隐空间超分与噪声对齐,打破扩散模型生成 4K 图像的效率瓶颈
图像处理·人工智能·深度学习·计算机视觉·视觉检测·超分辨率重建
海天一色y8 小时前
基于CNN实现Mnist手写数字识别
人工智能·深度学习·计算机视觉
抠头专注python环境配置9 小时前
2026终极诊断指南:解决Windows PyTorch GPU安装失败,从迷茫到确定
人工智能·pytorch·windows·深度学习·gpu·环境配置·cuda
CoovallyAIHub9 小时前
英伟达CES 2026炸场:没有新显卡,却掏出了让全球AI公司彻夜难眠的“算力核弹”
深度学习·算法·计算机视觉
智算菩萨9 小时前
2026最新视频压缩技术全景概述:AV2临近定稿、VVC加速落地、神经网络编码正在改写带宽成本
人工智能·深度学习·神经网络
CoovallyAIHub9 小时前
如何用10%的标注数据,达到可媲美全监督模型的性能?AAAI 2026论文揭秘BCSI三大创新设计
深度学习·算法·计算机视觉
duyinbi751710 小时前
【深度学习】基于YOLO11的数字仪表识别与分类实现_HAFB_1
人工智能·深度学习·分类
YukiMori2310 小时前
使用 LoRA 对 Llama 基础模型进行指令微调 (SFT)
人工智能·深度学习