机器学习三十八

摘要

增强式学习是一种通过与环境互动学习最优行为的机器学习方法。和监督学习不同，它不需要提前标注好的标准答案，而是让智能体在环境中执行动作、接收奖励反馈，慢慢优化自己的行为策略。常见应用有游戏AI（如AlphaGo）、机器人控制等。增强式学习的核心由智能体、环境、状态观测、动作执行、奖励反馈构成，目标是通过不断累积正向奖励来训练智能体。这类学习一般需要设计策略网络、明确损失规则，再依靠策略梯度的优化方式，解决动态、不确定环境下的自主学习问题。

Abstract

Reinforcement Learning is a machine learning method that learns optimal behaviors through interaction with the environment. Unlike supervised learning, reinforcement learning does not rely on pre-labeled correct answers. Instead, an agent gradually optimizes its behavioral strategy by performing actions in the environment and receiving corresponding rewards. Common applications include game AI (e.g., AlphaGo) and robotic control. The core framework of reinforcement learning consists of an agent, environment, state observations, action execution, and reward feedback. The goal is to train the agent by maximizing cumulative rewards. Reinforcement learning typically involves designing a policy network, defining loss rules, and employing optimization methods such as policy gradients to address learning problems in dynamic and uncertain environments.

一、增强式学习运用环境

提到增强式学习（RL），大家其实并不陌生，很多知名应用比如AlphaGo，背后都用到了这项核心技术。我们此前接触和学习的大多是监督式学习，比如训练图像分类器时，不仅要给机器输入数据，还得明确告诉机器对应的正确输出，才能完成模型训练。

自监督学习的核心逻辑和监督式学习很接近，只是省去了人工标注的环节；就算是自动编码器这类非监督式学习方法，不用人工标注标签，训练时也需要依赖系统自动生成的标签来完成学习。

而增强式学习面对的是另一类问题：给机器输入信息后，我们没办法提前确定最佳的输出结果。就像下围棋，看到当前棋盘布局，没人能直接判断下一步落子的最优位置。遇到这种没有标准答案的决策场景，正是增强式学习能发挥作用的地方。

机器并非完全没有参考，即便我们给不出标准答案，它也能通过和环境不断互动获取反馈，从而分辨自身行为的好坏。

二、增强式学习的定义

1.增强式学习的说明

增强式学习和我们之前学的机器学习有着相同的核心学习逻辑，第一步都是寻找合适的目标函数。在增强式学习里，核心有参与者（Actor）和环境（Environment）两个主体，二者会持续互动：环境给参与者传递当前的状态观测，参与者接收信息后做出动作反馈给环境，环境再根据动作生成新的状态观测，循环往复。

对参与者来说，环境的观测是输入，自己做出的动作是输出，参与者本身就是我们要找的目标函数。在互动过程中，环境会持续给参与者发放奖励，以此评判动作的优劣，而这个函数的最终目标，就是尽可能积累更多的正向奖励。

拿增强式学习早期经典的"太空侵略者"游戏举例，能更直观理解这个过程。

游戏界面从下到上依次是玩家飞船、防护罩、外星人和得分面板。玩家飞船由机器操控，能左右移动、开火射击；防护罩可以抵挡外星人攻击，也会被飞船射击摧毁；外星人是攻击目标，击落一个就能获得相应分数。游戏结束的条件有两个，要么消灭所有外星人，要么玩家飞船被外星人击毁。

如果让参与者操控飞船玩游戏，环境就是游戏里的外星阵营，观测内容是实时的游戏画面，参与者的输出就是移动、开火这类操作，做出有效操作就能获得分数奖励。

每完成一个动作，游戏画面就会更新，也就是产生了新的观测信息，参与者需要据此做出新的动作，比如开火击落外星人，就能拿到对应的分数。

参与者的学习过程，就是在不断玩游戏、拿奖励的过程中，优化自己的决策方式，最终拿到最多的总奖励。

用增强式学习下围棋，和玩小游戏的核心逻辑基本一致，只是问题更复杂、规模更大。比如AlphaGo，它的环境就是人类棋手，观测内容是棋盘上黑白棋子的位置，输出是下一步的落子位置；动作作用到棋盘后，会形成新的棋局，AlphaGo再继续做决策，直到分出胜负。

围棋对弈里，每一步落子都不会立刻得到奖励，只有最后赢棋会获得正向反馈，输棋则是负向反馈，这也是增强式学习的典型应用场景。

2.有未知数的函数

机器学习的通用流程是三步：找到带有未知参数的目标函数、定义损失规则、完成优化，增强式学习也完全遵循这个流程。

增强式学习里带未知参数的函数，就是前面提到的参与者，它本质是一个神经网络，通常叫做策略网络。这个网络以游戏画面像素为输入，输出的是每个可执行动作的评分；机器最终选哪个动作，会根据评分转化成概率随机挑选，这个逻辑和普通的分类任务很相似。

3.定义Loss函数

结合"太空侵略者"的游戏流程，我们重新梳理增强式学习的损失规则：游戏开始时，初始画面作为参与者的输入，参与者做出右移的动作，获得相应奖励；动作完成后画面更新，参与者再做出开火动作，击落外星人就能拿到新奖励，这样一步步直到游戏结束。

从游戏开始到结束的完整过程，叫做一个回合。整个回合里，机器会做出一系列动作，收获对应的奖励，所有奖励加起来就是整场游戏的总奖励，这是我们希望尽可能提升的目标。而损失规则的核心，就是和总奖励反向对应，总奖励越高，损失就越低。

4.优化

把参与者和环境的互动过程抽象来看，环境输出观测信息给参与者，参与者做出动作反馈给环境，环境再更新观测，不断循环直到满足结束条件。

整个互动过程中形成的状态、动作、奖励序列，叫做轨迹。机器会根据这条轨迹获得一系列奖励，所有奖励的总和就是我们要最大化的目标。

我们优化的核心，就是调整参与者网络的参数，让它能拿到最高的总奖励。但增强式学习的优化并不简单：一是参与者选动作带有随机性，二是环境和奖励机制都是无法拆解的黑箱，再加上环境本身也存在随机变化，这些都增加了优化的难度。

三、策略梯度（Policy Gradient）

在学习策略梯度之前，首先要明白怎么控制参与者的输出，让它看到特定状态时，做出我们期望的动作。我们可以把这个过程看成分类任务：把状态当作输入，动作当作输出，对比实际动作和目标动作的差距，就能判断动作是否合适。

我们可以根据这个差距制定损失规则，通过调整网络参数缩小差距，让参与者更大概率做出目标动作；如果不想让参与者做某个动作，就反向制定损失规则即可。

想要训练这样的参与者，首先要收集对应的训练数据，再根据数据制定损失规则，最后用规则优化网络参数。

进一步来说，动作的好坏不只是简单的好或坏，还有优劣程度的区别，我们可以根据动作的实际效果，给不同动作赋予不同的权重。

结合带权重的动作数据制定损失规则后，就能正式训练参与者网络了。而整个过程的难点在于，如何判断每个动作的实际价值，以及如何匹配不同状态下该做或不该做的动作。