李宏毅深度强化学习入门笔记:Actor-Critic

李宏毅-深度强化学习-入门笔记:Actor-Critic

  • 一、深度强化学习简介
  • [二、Policy-based 方法](#二、Policy-based 方法)
    • [(一)学习一个 Actor](#(一)学习一个 Actor)
    • [(二)Deep Learning 的 3 个步骤](#(二)Deep Learning 的 3 个步骤)
      • [1. 确定 Function:作为 Actor 的神经网络](#1. 确定 Function:作为 Actor 的神经网络)
      • [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
      • [3. 选择最好的 Actor](#3. 选择最好的 Actor)
  • [三、Value-based 方法](#三、Value-based 方法)
    • [(一)学习一个 Critic](#(一)学习一个 Critic)
    • [(二)3 种 Critic](#(二)3 种 Critic)
    • [(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
  • [四、 Actor-Critic](#四、 Actor-Critic)

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类:Policy-based、Value-based

model-based 需要对未来世界有一定理解,知道未来可能会发生什么事

二、Policy-based 方法

(一)学习一个 Actor

Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。

(二)Deep Learning 的 3 个步骤

1. 确定 Function:作为 Actor 的神经网络

NN 的输入:表示机器观测的一个向量或矩阵

NN 的输出:在输出层与动作相关的神经元

2. 确定 Actor 的好坏



3. 选择最好的 Actor

(1)梯度下降

(2)增加一个 baseline

三、Value-based 方法

(一)学习一个 Critic

Critic 不确定 Actor

给定一个 Actor,Critic 可以评估 Actor 有多好

(二)3 种 Critic


(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)



四、 Actor-Critic



相关推荐
凉、介5 小时前
Armv8-A virtualization 笔记 (二)
笔记·学习·嵌入式·arm·gic
智者知已应修善业5 小时前
【ICL8038芯片正弦波三角波方波发生器电路】2024-1-5
驱动开发·经验分享·笔记·硬件架构·硬件工程
Risk Actuary6 小时前
快速傅里叶变换与聚合风险精算模型
人工智能·深度学习·机器学习
探序基因6 小时前
身高与基因的关系
笔记
没有梦想的咸鱼185-1037-16636 小时前
AI-Python机器学习、深度学习核心技术与前沿应用及OpenClaw、Hermes自动化编程
人工智能·python·深度学习·机器学习·chatgpt·数据挖掘·数据分析
m0_634666737 小时前
OpenDeepThink:让大模型不再只沿着一条思路硬想
人工智能·深度学习·机器学习
Wilber的技术分享7 小时前
【大模型面试八股 3】大模型微调技术:LoRA、QLoRA等
人工智能·深度学习·面试·lora·peft·qlora·大模型微调
llhm8 小时前
tsp学习笔记——LINUX SDK编译2(2)Kernel6.1 Linux
linux·笔记·学习
AI技术控10 小时前
论文解读:AE-TCN-SA——基于自编码器、TCN 与自注意力机制的锂电池内短路诊断方法
人工智能·python·深度学习·算法·机器学习·自然语言处理
wangcheng30311 小时前
关键词优化怎么理解最清楚
笔记