【机器学习】31-32 强化学习介绍 & 状态-动作值函数

31 Reinforcement Learning Introduction

31.1 What is Reinforcement Learning?

强化学习 (RL) 是一种让 智能体(Agent) 通过与 环境(Environment) 的不断交互来学习最优行为策略的方法

  • 目标 : 最大化在长期内获得的累计奖励(Reward)
  • 学习过程 : 智能体执行一个动作(Action),环境会返回一个新的**状态(State)**和一个奖励。智能体通过这种试错机制,逐步发现哪些动作在哪些状态下能带来最高的长期回报
  • 核心要素 : 状态、动作、奖励、策略(Policy)和价值函数(Value Function)
  • 应用: 机器人控制、自动驾驶、游戏AI(如 AlphaGo)、资源调度等

注:强化学习解决有监督学习和无监督学习无法处理的序列决策长期规划 问题,因为它不依赖于人类提供的"正确答案"标签,而是通过奖励反馈自主学习

31.2 Example (Mars Rover)

以一个简化版的火星探测器模型作为例子,介绍强化学习

如上图,简化为6个状态,且只能向左或向右移动,最左和最右为终端状态(Terminal State),标志着一个训练或运行回合的终点,最左边奖励为100,最右边奖励为40,中间都为0

31.3 The Return in Reinforcement Learning

如果执行一次动作,即向左或向右走,这个行动的代价为0的话,那么显然一直向左走比较好,因为左边的终端状态奖励更大。但是在实际任务中往往不是这样,而是要考虑行动的成本

我们用回报(Return)来表示从某个时间步开始,到本回合结束,智能体能够获得的所有未来奖励的累积总和 。用 折扣因子(Discount Factor) 是衡量未来奖励相对于即时奖励的价值,当前状态的奖励乘折扣因子的0次方,下一个状态乘1次方,再下一个乘2次方,以此类推

以探测器为例,假设折扣因子设为0.9,初始在状态4,一直向左走的回报即为:Return=0+(0.9)×0+(0.9)2×0+(0.9)3×100=72.9Return = 0 + (0.9) \times 0 + (0.9)^2 \times 0 + (0.9)^3 \times 100 = 72.9Return=0+(0.9)×0+(0.9)2×0+(0.9)3×100=72.9

注:

  1. 折扣因子通常用γ\gammaγ表示
  2. 折扣因子通常取0.9,0.99,0.999这类数字,但是后续的例子中为了在较少的步骤中体现出折扣因子的作用,设为0.5
  3. 如果存在负奖励,那么折扣因子的出现,最优策略会将负奖励尽量推迟

31.4 Policies in Reinforcement Learning

策略(Policy,π\piπ)是智能体在特定状态下,选择动作的规则或函数。即π(s)=a\pi (s) = aπ(s)=a,输入state,输出action

31.5 Review of Key Concepts

前面介绍的强化学习的流程,实际上是马尔科夫决策过程(Markov Decision Process,MDP)

关键在于其马尔科夫性:未来只取决于当前状态和动作,与过去的历史无关 。这使得我们只需要关注当前状态就能进行决策,极大地简化了问题

32 State-action Value Function

32.1 State-action Value Function Definition

为了找到最优策略,我们需要评估一个策略的好坏。在实际决策时,我们更需要知道在某个特定状态下,采取某个特定动作后,能获得多少期望回报

我们引入状态-动作值函数(State-action Value Function) ,又称Q函数(Q-Function) :Q(s,a)Q(s, a)Q(s,a)

Q函数的值等于,在某个状态s后只采取一次动作a,并且之后都采用最优策略所得到的回报

这个定义中出现了"最优策略"可能有些奇怪,但是后续的介绍会说明。总之,计算出了Q函数的值,我们就能知道当前状态应该采取什么策略最优

注:在某些文献中,用Q∗Q^{*}Q∗表示Q函数

32.2 Bellman Equation 贝尔曼方程

贝尔曼方程可以用来帮助计算Q函数

记s为当前状态,a为当前采取的动作,s'为采取动作a后到达的状态,a'为状态s'下采取的动作,R(s)表示当前状态s的奖励,那么贝尔曼方程为:
Q(s,a)=R(s)+γmax⁡a′Q(s′,a′)Q(s, a) = R(s) + \gamma \max_{a'} Q(s', a')Q(s,a)=R(s)+γa′maxQ(s′,a′)

这非常符合直觉,当前价值 Q(s,a)Q(s, a)Q(s,a) = 立即回报 R(s)R(s)R(s) + 对未来的期望 γmax⁡a′Q(s′,a′)\gamma \max_{a'} Q(s', a')γmaxa′Q(s′,a′)。因为当前这一步比下一步多一步,所以后一项要乘以折扣因子γ\gammaγ

32.3 Stochastic Environment 随机环境

有时,我们根据策略采取动作a,但是实际上会因为一些意外情况,并不会实际执行a,例如,发指令给火星探测车向左走,但可能因为滑坡导致有一定概率向右走了

随机环境指的是在给定当前状态s并采取动作a后,环境不是确定性地转移到下一个状态s',而是以一定的概率转移到多个可能的状态s1′,s2′,...s_1', s_2', \dotss1′,s2′,...

此时,我们考虑最优策略,是最大化汇报的期望,那么贝尔曼方程改为:
Q(s,a)=R(s)+γE(max⁡a′Q(s′,a′))Q(s, a) = R(s) + \gamma E(\max_{a'} Q(s', a'))Q(s,a)=R(s)+γE(a′maxQ(s′,a′))

相关推荐
汗流浃背了吧,老弟!26 分钟前
SFT(监督式微调)
人工智能
zl_vslam26 分钟前
SLAM中的非线性优-3D图优化之相对位姿Between Factor位姿图优化(十三)
人工智能·算法·计算机视觉·3d
Xy-unu31 分钟前
Analog optical computer for AI inference and combinatorial optimization
论文阅读·人工智能
小马过河R34 分钟前
混元世界模型1.5架构原理初探
人工智能·语言模型·架构·nlp
三万棵雪松36 分钟前
【AI小智后端部分(一)】
人工智能·python·ai小智
编程小Y37 分钟前
Adobe Animate 2024:2D 矢量动画与交互创作利器下载安装教程
人工智能
laplace012338 分钟前
Part 3:模型调用、记忆管理与工具调用流程(LangChain 1.0)笔记(Markdown)
开发语言·人工智能·笔记·python·langchain·prompt
mys55181 小时前
杨建允:AI搜索优化对汽车服务行业获客的影响
人工智能·aigc·geo·ai搜索优化·ai引擎优化
2501_936146041 小时前
鱼类识别与分类:基于freeanchor_x101-32x4d_fpn_1x_coco的三种鱼类自动检测
人工智能·分类·数据挖掘