李宏毅深度强化学习入门笔记:Actor-Critic

李宏毅-深度强化学习-入门笔记:Actor-Critic

  • 一、深度强化学习简介
  • [二、Policy-based 方法](#二、Policy-based 方法)
    • [(一)学习一个 Actor](#(一)学习一个 Actor)
    • [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
      • [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
      • [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
      • [3. 选择最好的 Actor](#3. 选择最好的 Actor)
  • [三、Value-based 方法](#三、Value-based 方法)
    • [(一)学习一个 Critic](#(一)学习一个 Critic)
    • [(二)3 种 Critic](#(二)3 种 Critic)
    • [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
  • [四、 Actor-Critic](#四、 Actor-Critic)

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类:Policy-based、Value-based

model-based 需要对未来世界有一定理解,知道未来可能会发生什么事

二、Policy-based 方法

(一)学习一个 Actor

Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。

(二)Deep Learning 的 3 个步骤

1. 确定 Function:作为 Actor 的神经网络

NN 的输入:表示机器观测的一个向量或矩阵

NN 的输出:在输出层与动作相关的神经元

2. 确定 Actor 的好坏



3. 选择最好的 Actor

(1)梯度下降

(2)增加一个 baseline

三、Value-based 方法

(一)学习一个 Critic

Critic 不确定 Actor

给定一个 Actor,Critic 可以评估 Actor 有多好

(二)3 种 Critic


(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)



四、 Actor-Critic



相关推荐
机器学习之心7 小时前
TCN-Transformer-BiGRU组合模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析
深度学习·回归·transformer·shap分析
LLWZAI7 小时前
让朱雀AI检测无法判断的AI公众号文章,当创作者开始与算法「躲猫猫」
大数据·人工智能·深度学习
智者知已应修善业8 小时前
【洛谷P9975奶牛被病毒传染最少数量推导,导出多样例】2025-2-26
c语言·c++·经验分享·笔记·算法·推荐算法
Junlan278 小时前
Cursor使用入门及连接服务器方法(更新中)
服务器·人工智能·笔记
霖大侠8 小时前
【无标题】
人工智能·深度学习·机器学习
是店小二呀8 小时前
CANN 异构计算的极限扩展:从算子融合到多卡通信的统一优化策略
人工智能·深度学习·transformer
risc1234568 小时前
如何认识结构?结构 = 要素 + 关系 + 动态
笔记
小徐xxx9 小时前
ResNet介绍
深度学习·resnet·残差连接
骇城迷影9 小时前
Makemore 核心面试题大汇总
人工智能·pytorch·python·深度学习·线性回归
風清掦9 小时前
【江科大STM32学习笔记-05】EXTI外部中断11
笔记·stm32·学习