李宏毅-深度强化学习-入门笔记:Actor-Critic
- 一、深度强化学习简介
- [二、Policy-based 方法](#二、Policy-based 方法)
-
- [(一)学习一个 Actor](#(一)学习一个 Actor)
- [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
-
- [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
- [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
- [3. 选择最好的 Actor](#3. 选择最好的 Actor)
- [三、Value-based 方法](#三、Value-based 方法)
-
- [(一)学习一个 Critic](#(一)学习一个 Critic)
- [(二)3 种 Critic](#(二)3 种 Critic)
- [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
- [四、 Actor-Critic](#四、 Actor-Critic)
网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/
一、深度强化学习简介
RL分类:Policy-based、Value-based
model-based 需要对未来世界有一定理解,知道未来可能会发生什么事
二、Policy-based 方法
(一)学习一个 Actor
Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。
(二)Deep Learning 的 3 个步骤
1. 确定 Function:作为 Actor 的神经网络
NN 的输入:表示机器观测的一个向量或矩阵
NN 的输出:在输出层与动作相关的神经元
2. 确定 Actor 的好坏
3. 选择最好的 Actor
(1)梯度下降
(2)增加一个 baseline
三、Value-based 方法
(一)学习一个 Critic
Critic 不确定 Actor
给定一个 Actor,Critic 可以评估 Actor 有多好
(二)3 种 Critic
(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)
四、 Actor-Critic