李宏毅深度强化学习入门笔记：Actor-Critic

许小禾上学记2024-12-03 16:40

李宏毅-深度强化学习-入门笔记：Actor-Critic

一、深度强化学习简介
[二、Policy-based 方法](#二、Policy-based 方法)
- [（一）学习一个 Actor](#（一）学习一个 Actor)
- [（二）Deep Learning 的 3 个步骤](#（二）Deep Learning 的 3 个步骤)
- - [1. 确定 Function：作为 Actor 的神经网络](#1. 确定 Function：作为 Actor 的神经网络)
  - [2. 确定 Actor 的好坏](#2. 确定 Actor 的好坏)
  - [3. 选择最好的 Actor](#3. 选择最好的 Actor)
[三、Value-based 方法](#三、Value-based 方法)
- [（一）学习一个 Critic](#（一）学习一个 Critic)
- [（二）3 种 Critic](#（二）3 种 Critic)
- [（三）如何评估 V π ( s ) V^{\pi}(s) Vπ(s)](#（三）如何评估 V π ( s ) V^{\pi}(s) Vπ(s))
[四、 Actor-Critic](#四、 Actor-Critic)

网课链接：https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类：Policy-based、Value-based

model-based 需要对未来世界有一定理解，知道未来可能会发生什么事

二、Policy-based 方法

（一）学习一个 Actor

Machine Learning 的任务是找一个 Function， RL 也是找一个称为 Actor 的 Function。

（二）Deep Learning 的 3 个步骤

1. 确定 Function：作为 Actor 的神经网络

NN 的输入：表示机器观测的一个向量或矩阵

NN 的输出：在输出层与动作相关的神经元

2. 确定 Actor 的好坏

3. 选择最好的 Actor

（1）梯度下降

（2）增加一个 baseline

三、Value-based 方法

（一）学习一个 Critic

Critic 不确定 Actor

给定一个 Actor，Critic 可以评估 Actor 有多好

（二）3 种 Critic

（三）如何评估 V π ( s ) V^{\pi}(s) Vπ(s)

四、 Actor-Critic

上一篇：华为HarmonyOS 让应用快速拥有账号能力 - 获取用户手机号

下一篇：编译器优化技术

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流