【机器学习】31-32 强化学习介绍 & 状态-动作值函数

31 Reinforcement Learning Introduction

31.1 What is Reinforcement Learning?

强化学习 (RL) 是一种让 智能体(Agent) 通过与 环境(Environment) 的不断交互来学习最优行为策略的方法

  • 目标 : 最大化在长期内获得的累计奖励(Reward)
  • 学习过程 : 智能体执行一个动作(Action),环境会返回一个新的**状态(State)**和一个奖励。智能体通过这种试错机制,逐步发现哪些动作在哪些状态下能带来最高的长期回报
  • 核心要素 : 状态、动作、奖励、策略(Policy)和价值函数(Value Function)
  • 应用: 机器人控制、自动驾驶、游戏AI(如 AlphaGo)、资源调度等

注:强化学习解决有监督学习和无监督学习无法处理的序列决策长期规划 问题,因为它不依赖于人类提供的"正确答案"标签,而是通过奖励反馈自主学习

31.2 Example (Mars Rover)

以一个简化版的火星探测器模型作为例子,介绍强化学习

如上图,简化为6个状态,且只能向左或向右移动,最左和最右为终端状态(Terminal State),标志着一个训练或运行回合的终点,最左边奖励为100,最右边奖励为40,中间都为0

31.3 The Return in Reinforcement Learning

如果执行一次动作,即向左或向右走,这个行动的代价为0的话,那么显然一直向左走比较好,因为左边的终端状态奖励更大。但是在实际任务中往往不是这样,而是要考虑行动的成本

我们用回报(Return)来表示从某个时间步开始,到本回合结束,智能体能够获得的所有未来奖励的累积总和 。用 折扣因子(Discount Factor) 是衡量未来奖励相对于即时奖励的价值,当前状态的奖励乘折扣因子的0次方,下一个状态乘1次方,再下一个乘2次方,以此类推

以探测器为例,假设折扣因子设为0.9,初始在状态4,一直向左走的回报即为:Return=0+(0.9)×0+(0.9)2×0+(0.9)3×100=72.9Return = 0 + (0.9) \times 0 + (0.9)^2 \times 0 + (0.9)^3 \times 100 = 72.9Return=0+(0.9)×0+(0.9)2×0+(0.9)3×100=72.9

注:

  1. 折扣因子通常用γ\gammaγ表示
  2. 折扣因子通常取0.9,0.99,0.999这类数字,但是后续的例子中为了在较少的步骤中体现出折扣因子的作用,设为0.5
  3. 如果存在负奖励,那么折扣因子的出现,最优策略会将负奖励尽量推迟

31.4 Policies in Reinforcement Learning

策略(Policy,π\piπ)是智能体在特定状态下,选择动作的规则或函数。即π(s)=a\pi (s) = aπ(s)=a,输入state,输出action

31.5 Review of Key Concepts

前面介绍的强化学习的流程,实际上是马尔科夫决策过程(Markov Decision Process,MDP)

关键在于其马尔科夫性:未来只取决于当前状态和动作,与过去的历史无关 。这使得我们只需要关注当前状态就能进行决策,极大地简化了问题

32 State-action Value Function

32.1 State-action Value Function Definition

为了找到最优策略,我们需要评估一个策略的好坏。在实际决策时,我们更需要知道在某个特定状态下,采取某个特定动作后,能获得多少期望回报

我们引入状态-动作值函数(State-action Value Function) ,又称Q函数(Q-Function) :Q(s,a)Q(s, a)Q(s,a)

Q函数的值等于,在某个状态s后只采取一次动作a,并且之后都采用最优策略所得到的回报

这个定义中出现了"最优策略"可能有些奇怪,但是后续的介绍会说明。总之,计算出了Q函数的值,我们就能知道当前状态应该采取什么策略最优

注:在某些文献中,用Q∗Q^{*}Q∗表示Q函数

32.2 Bellman Equation 贝尔曼方程

贝尔曼方程可以用来帮助计算Q函数

记s为当前状态,a为当前采取的动作,s'为采取动作a后到达的状态,a'为状态s'下采取的动作,R(s)表示当前状态s的奖励,那么贝尔曼方程为:
Q(s,a)=R(s)+γmax⁡a′Q(s′,a′)Q(s, a) = R(s) + \gamma \max_{a'} Q(s', a')Q(s,a)=R(s)+γa′maxQ(s′,a′)

这非常符合直觉,当前价值 Q(s,a)Q(s, a)Q(s,a) = 立即回报 R(s)R(s)R(s) + 对未来的期望 γmax⁡a′Q(s′,a′)\gamma \max_{a'} Q(s', a')γmaxa′Q(s′,a′)。因为当前这一步比下一步多一步,所以后一项要乘以折扣因子γ\gammaγ

32.3 Stochastic Environment 随机环境

有时,我们根据策略采取动作a,但是实际上会因为一些意外情况,并不会实际执行a,例如,发指令给火星探测车向左走,但可能因为滑坡导致有一定概率向右走了

随机环境指的是在给定当前状态s并采取动作a后,环境不是确定性地转移到下一个状态s',而是以一定的概率转移到多个可能的状态s1′,s2′,...s_1', s_2', \dotss1′,s2′,...

此时,我们考虑最优策略,是最大化汇报的期望,那么贝尔曼方程改为:
Q(s,a)=R(s)+γE(max⁡a′Q(s′,a′))Q(s, a) = R(s) + \gamma E(\max_{a'} Q(s', a'))Q(s,a)=R(s)+γE(a′maxQ(s′,a′))

相关推荐
科技社10 分钟前
咪咕互娱亮相数字中国峰会:“精品游戏+轻量终端”组合,打开数字娱乐新想象
人工智能
数智化精益手记局1 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Flying pigs~~1 小时前
RAG 完整面试指南:原理、优化、幻觉解决方案
人工智能·prompt·rag·智能体·检索增强生成·rag优化
博.闻广见1 小时前
AI_概率统计-2.常见分布
人工智能·机器学习
企业架构师老王1 小时前
2026制造业安全生产隐患识别AI方案:从主流产品对比看企业级AI Agent的非侵入式落地路径
人工智能·安全·ai
Aleeeeex2 小时前
RAG 那点事:从 8 份企业文档到能用的问答系统,全过程拆给你看
人工智能·python·ai编程
冬奇Lab2 小时前
一天一个开源项目(第87篇):Tank-OS —— Red Hat 工程师用一个周末,把 AI Agent 塞进了一个可启动的 Linux 镜像
人工智能·开源·资讯
小糖学代码2 小时前
LLM系列:2.pytorch入门:8.神经网络的损失函数(criterion)
人工智能·深度学习·神经网络
Captaincc2 小时前
转发-中央网信办部署开展“清朗·整治AI应用乱象”专项行动
人工智能·vibecoding
AI自动化工坊2 小时前
Late框架技术深度解析:5GB VRAM实现10倍AI编码效率的工程架构
人工智能·5g·架构·ai编程·late