李宏毅深度强化学习入门笔记:Actor-Critic

李宏毅-深度强化学习-入门笔记:Actor-Critic

  • 一、深度强化学习简介
  • [二、Policy-based 方法](#二、Policy-based 方法)
    • [(一)学习一个 Actor](#(一)学习一个 Actor)
    • [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
      • [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
      • [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
      • [3. 选择最好的 Actor](#3. 选择最好的 Actor)
  • [三、Value-based 方法](#三、Value-based 方法)
    • [(一)学习一个 Critic](#(一)学习一个 Critic)
    • [(二)3 种 Critic](#(二)3 种 Critic)
    • [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
  • [四、 Actor-Critic](#四、 Actor-Critic)

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类:Policy-based、Value-based

model-based 需要对未来世界有一定理解,知道未来可能会发生什么事

二、Policy-based 方法

(一)学习一个 Actor

Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。

(二)Deep Learning 的 3 个步骤

1. 确定 Function:作为 Actor 的神经网络

NN 的输入:表示机器观测的一个向量或矩阵

NN 的输出:在输出层与动作相关的神经元

2. 确定 Actor 的好坏



3. 选择最好的 Actor

(1)梯度下降

(2)增加一个 baseline

三、Value-based 方法

(一)学习一个 Critic

Critic 不确定 Actor

给定一个 Actor,Critic 可以评估 Actor 有多好

(二)3 种 Critic


(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)



四、 Actor-Critic



相关推荐
AA陈超1 天前
ASC学习笔记0020:用于定义角色或Actor的默认属性值
c++·笔记·学习·ue5·虚幻引擎
王哈哈^_^1 天前
YOLO11实例分割训练任务——从构建数据集到训练的完整教程
人工智能·深度学习·算法·yolo·目标检测·机器学习·计算机视觉
IMPYLH1 天前
Lua 的 collectgarbage 函数
开发语言·笔记·junit·单元测试·lua
SalvoGao1 天前
Python学习 | 怎么理解epoch?
数据结构·人工智能·python·深度学习·学习
思成不止于此1 天前
深入理解 C++ 多态:从概念到实现的完整解析
开发语言·c++·笔记·学习·多态·c++40周年
谅望者1 天前
数据分析笔记08:Python编程基础-数据类型与变量
数据库·笔记·python·数据分析·概率论
studytosky1 天前
深度学习理论与实战:Pytorch基础入门
人工智能·pytorch·python·深度学习·机器学习
iiiiii111 天前
【论文阅读笔记】多实例学习方法 Diverse Density(DD):在特征空间中寻找正概念的坐标
论文阅读·人工智能·笔记·机器学习·ai·学习方法·多实例学习
inputA1 天前
【LwIP源码学习8】netbuf源码分析
android·c语言·笔记·嵌入式硬件·学习
JM丫1 天前
内网理论知识总结
笔记·网络安全