强化学习4.1:基于价值——Q-learning

概念

是一种离线策略(off-policy) 的时序差分(TD)强化学习算法,用于学习最优动作价值函数 ,且不需要环境模型

核心思想

通过不断更新 Q 值,使 Q 函数逼近最优值。

更新时使用的目标值基于 贪婪选择 (取下一状态的最大 Q 值),但实际执行动作时可以遵循其他策略(如 ε-贪婪),因此是 离线策略 算法

更新公式

  • s:当前状态

  • a:当前执行的动作

  • r:获得的奖励

  • s′:下一状态

  • α:学习率(0~1,控制更新幅度)

  • γ:折扣因子(0~1,平衡即时与未来奖励)

  • max⁡a′Q(s′,a′):在下一状态所有动作中,选择最大的 Q 值

算法流程

复制代码
初始化 Q(s,a) 为任意值(通常 0)
对每个 episode:
    初始化状态 s
    对 episode 中的每一步:
        根据策略(如 ε-贪婪)从 Q 选择动作 a
        执行动作 a,观察奖励 r 和下一状态 s'
        Q(s,a) ← Q(s,a) + α [ r + γ * max_{a'} Q(s',a') - Q(s,a) ]
        s ← s'
    直到 s 为终止状态

什么时候用 Q-learning?

  • 状态和动作空间 离散且较小(可用表格存储)

  • 想学习 确定性最优策略

  • 环境没有模型,需要从交互中学习

如果状态空间很大(如图像),就需要 深度 Q 学习(DQN)

相关推荐
三品吉他手会点灯1 小时前
C语言学习笔记 - 20.C编程预备计算机专业知识 - 变量为什么必须的初始化【重点】
c语言·笔记·学习
kobesdu1 小时前
【ROS2实战笔记-12】rosshow:终端里的盲文可视化与无头机器人的现场调试
笔记·机器人·ros·移动机器人
马丁聊GEO1 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker2 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
sakiko_2 小时前
UIKit学习笔记1-创建项目(使用UIKit)、使用组件
笔记·学习
一只幸运猫.2 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Old Uncle Tom2 小时前
OpenClaw 记忆系统 -- 记忆预加载
java·数据结构·算法·agent
Promise微笑2 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
会编程的土豆2 小时前
洛谷题单入门1 顺序结构
数据结构·算法·golang
深海鱼在掘金2 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent