强化学习4.1:基于价值——Q-learning

概念

是一种离线策略(off-policy) 的时序差分(TD)强化学习算法,用于学习最优动作价值函数 ,且不需要环境模型

核心思想

通过不断更新 Q 值,使 Q 函数逼近最优值。

更新时使用的目标值基于 贪婪选择 (取下一状态的最大 Q 值),但实际执行动作时可以遵循其他策略(如 ε-贪婪),因此是 离线策略 算法

更新公式

  • s:当前状态

  • a:当前执行的动作

  • r:获得的奖励

  • s′:下一状态

  • α:学习率(0~1,控制更新幅度)

  • γ:折扣因子(0~1,平衡即时与未来奖励)

  • max⁡a′Q(s′,a′):在下一状态所有动作中,选择最大的 Q 值

算法流程

复制代码
初始化 Q(s,a) 为任意值(通常 0)
对每个 episode:
    初始化状态 s
    对 episode 中的每一步:
        根据策略(如 ε-贪婪)从 Q 选择动作 a
        执行动作 a,观察奖励 r 和下一状态 s'
        Q(s,a) ← Q(s,a) + α [ r + γ * max_{a'} Q(s',a') - Q(s,a) ]
        s ← s'
    直到 s 为终止状态

什么时候用 Q-learning?

  • 状态和动作空间 离散且较小(可用表格存储)

  • 想学习 确定性最优策略

  • 环境没有模型,需要从交互中学习

如果状态空间很大(如图像),就需要 深度 Q 学习(DQN)

相关推荐
元岳数字人小元8 分钟前
AI 数字人开发公司浅谈 虚拟数字人打造景区新服务
人工智能·人机交互·交互
哦哦~92111 分钟前
AI赋能生物医学:从临床数据到药物分子性质预测实战培
人工智能·生物医学·药物分子
GIS数据转换器14 分钟前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
bIo7lyA8v15 分钟前
算法复杂度评估的实验统计方法与可视化的技术8
算法
虫无涯17 分钟前
本地离线大模型实战:Ollama + Llama 3.1 8B 全流程部署(适配VSCode Continue代码助手)
人工智能
Rocky Ding*32 分钟前
Latent Consistency Models:一篇读懂扩散模型的少步生成核心基础知识
人工智能·深度学习·机器学习·ai作画·stable diffusion·aigc·ai-native
大山佬34 分钟前
AI 边缘部署:MCU 上的轻量级目标检测,从 YOLO 到 TFLite Micro 的全链路优化
人工智能
旅僧34 分钟前
Π环境部署(运行 且 无理论讲解)
学习
数睿数据无代码开发35 分钟前
深度解析smardaten数据大屏:六大核心功能重塑可视化开发
人工智能·信息可视化
陈猪的杰咪35 分钟前
GitHub Copilot 2026计费新规:AI Credits消耗解析与节省策略
人工智能·ai·架构·github·copilot