强化学习4.1:基于价值——Q-learning

概念

是一种离线策略(off-policy) 的时序差分(TD)强化学习算法,用于学习最优动作价值函数 ,且不需要环境模型

核心思想

通过不断更新 Q 值,使 Q 函数逼近最优值。

更新时使用的目标值基于 贪婪选择 (取下一状态的最大 Q 值),但实际执行动作时可以遵循其他策略(如 ε-贪婪),因此是 离线策略 算法

更新公式

  • s:当前状态

  • a:当前执行的动作

  • r:获得的奖励

  • s′:下一状态

  • α:学习率(0~1,控制更新幅度)

  • γ:折扣因子(0~1,平衡即时与未来奖励)

  • max⁡a′Q(s′,a′):在下一状态所有动作中,选择最大的 Q 值

算法流程

复制代码
初始化 Q(s,a) 为任意值(通常 0)
对每个 episode:
    初始化状态 s
    对 episode 中的每一步:
        根据策略(如 ε-贪婪)从 Q 选择动作 a
        执行动作 a,观察奖励 r 和下一状态 s'
        Q(s,a) ← Q(s,a) + α [ r + γ * max_{a'} Q(s',a') - Q(s,a) ]
        s ← s'
    直到 s 为终止状态

什么时候用 Q-learning?

  • 状态和动作空间 离散且较小(可用表格存储)

  • 想学习 确定性最优策略

  • 环境没有模型,需要从交互中学习

如果状态空间很大(如图像),就需要 深度 Q 学习(DQN)

相关推荐
OAK中国_官方1 分钟前
DepthAI v3 目标追踪器:速度估计与遮挡处理
人工智能
DisonTangor2 分钟前
【字节拥抱开源】ByteDance-Seed开源连续潜在扩散语言模型——Cola DLM
人工智能·语言模型·自然语言处理
2601_957786772 分钟前
矩阵系统深度解析:从冷启动困局到智能化运营的技术演进
大数据·人工智能·矩阵
我想我不够好。6 分钟前
2026.5.20 消防监控学习 1.5hour
学习
linmoo19866 分钟前
Agent应用实践之四 - 基础:AgentScope-SpringBoot集成源码解析
人工智能·spring boot·agent·agentscope·openclaw
爱写代码的小朋友7 分钟前
基于多约束遗传算法的中小学排座位优化模型研究
linux·人工智能·算法
科技小花7 分钟前
全球数据治理:合规与AI双引擎驱动
大数据·人工智能·数据治理·数据中台
один but you9 分钟前
unorder_map 和unorder_set
算法·哈希算法·散列表
周杰伦的稻香9 分钟前
使用 Ollama 为 Hexo 博客部署 AI 文章摘要
人工智能
sunxunyong10 分钟前
st功能记录
人工智能