李宏毅深度强化学习入门笔记:Actor-Critic

李宏毅-深度强化学习-入门笔记:Actor-Critic

  • 一、深度强化学习简介
  • [二、Policy-based 方法](#二、Policy-based 方法)
    • [(一)学习一个 Actor](#(一)学习一个 Actor)
    • [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
      • [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
      • [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
      • [3. 选择最好的 Actor](#3. 选择最好的 Actor)
  • [三、Value-based 方法](#三、Value-based 方法)
    • [(一)学习一个 Critic](#(一)学习一个 Critic)
    • [(二)3 种 Critic](#(二)3 种 Critic)
    • [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
  • [四、 Actor-Critic](#四、 Actor-Critic)

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类:Policy-based、Value-based

model-based 需要对未来世界有一定理解,知道未来可能会发生什么事

二、Policy-based 方法

(一)学习一个 Actor

Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。

(二)Deep Learning 的 3 个步骤

1. 确定 Function:作为 Actor 的神经网络

NN 的输入:表示机器观测的一个向量或矩阵

NN 的输出:在输出层与动作相关的神经元

2. 确定 Actor 的好坏



3. 选择最好的 Actor

(1)梯度下降

(2)增加一个 baseline

三、Value-based 方法

(一)学习一个 Critic

Critic 不确定 Actor

给定一个 Actor,Critic 可以评估 Actor 有多好

(二)3 种 Critic


(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)



四、 Actor-Critic



相关推荐
xiaocao_10232 小时前
手机备忘录:安全存储与管理个人笔记的理想选择
笔记·安全·智能手机
索然无味io2 小时前
XML外部实体注入--漏洞利用
xml·前端·笔记·学习·web安全·网络安全·php
王磊鑫2 小时前
Java入门笔记(1)
java·开发语言·笔记
安冬的码畜日常3 小时前
【Vim Masterclass 笔记22】S09L40 + L41:同步练习11:Vim 的配置与 vimrc 文件的相关操作(含点评课内容)
笔记·vim·vim配置·vim同步练习·vim options·vim option-list
小锋学长生活大爆炸3 小时前
【DGL系列】dgl中为graph指定CSR/COO/CSC矩阵格式
人工智能·pytorch·深度学习·图神经网络·gnn·dgl
机械心4 小时前
pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署
pytorch·python·深度学习
啊波次得饿佛哥4 小时前
9. 神经网络(一.神经元模型)
人工智能·深度学习·神经网络
追Star仙4 小时前
基于Qt中的QAxObject实现指定表格合并数据进行word表格的合并
开发语言·笔记·qt·word
Chatopera 研发团队4 小时前
Tensor 基本操作4 理解 indexing,加减乘除和 broadcasting 运算 | PyTorch 深度学习实战
人工智能·pytorch·深度学习
白白糖4 小时前
深度学习 Pytorch 动态计算图与梯度下降入门
人工智能·pytorch·深度学习