李宏毅深度强化学习入门笔记:Actor-Critic

李宏毅-深度强化学习-入门笔记:Actor-Critic

  • 一、深度强化学习简介
  • [二、Policy-based 方法](#二、Policy-based 方法)
    • [(一)学习一个 Actor](#(一)学习一个 Actor)
    • [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
      • [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
      • [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
      • [3. 选择最好的 Actor](#3. 选择最好的 Actor)
  • [三、Value-based 方法](#三、Value-based 方法)
    • [(一)学习一个 Critic](#(一)学习一个 Critic)
    • [(二)3 种 Critic](#(二)3 种 Critic)
    • [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
  • [四、 Actor-Critic](#四、 Actor-Critic)

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类:Policy-based、Value-based

model-based 需要对未来世界有一定理解,知道未来可能会发生什么事

二、Policy-based 方法

(一)学习一个 Actor

Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。

(二)Deep Learning 的 3 个步骤

1. 确定 Function:作为 Actor 的神经网络

NN 的输入:表示机器观测的一个向量或矩阵

NN 的输出:在输出层与动作相关的神经元

2. 确定 Actor 的好坏



3. 选择最好的 Actor

(1)梯度下降

(2)增加一个 baseline

三、Value-based 方法

(一)学习一个 Critic

Critic 不确定 Actor

给定一个 Actor,Critic 可以评估 Actor 有多好

(二)3 种 Critic


(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)



四、 Actor-Critic



相关推荐
TheSumSt5 小时前
Python丨课程笔记Part3:语法进阶部分(控制结构与基础数据结构)
数据结构·笔记·python
赋创小助手6 小时前
融合与跃迁:NVIDIA、Groq 与下一代 AI 推理架构的博弈与机遇
服务器·人工智能·深度学习·神经网络·语言模型·自然语言处理·架构
白日做梦Q6 小时前
深度学习模型评估指标深度解析:不止于准确率的科研量化方法
人工智能·深度学习
IT19956 小时前
Qt笔记-使用SSH2进行远程连接linux服务器并上传文件
linux·服务器·笔记
哥布林学者7 小时前
吴恩达深度学习课程四:计算机视觉 第四周:卷积网络应用 (二) 图像风格转换
深度学习·ai
BOF_dcb8 小时前
【无标题】
pytorch·深度学习·机器学习
利刃大大8 小时前
【2025年度创作总结】从笔记到实践,从思考到生活融合
笔记·生活
航Hang*8 小时前
Photoshop 图形与图像处理技术——第1章:数字图像基本知识
图像处理·笔记·ui·photoshop
Secede.9 小时前
Windows + WSL2 + Docker + CudaToolkit:深度学习环境配置
windows·深度学习·docker
iconball10 小时前
个人用云计算学习笔记 --37 Zabbix
运维·笔记·学习·云计算·zabbix