学习笔记 |【PPO × Family】第一课：开启决策 AI 探索之旅

许小禾上学记2025-12-10 9:40

学习来源

【PPO × Family】第一课：开启决策 AI 探索之旅

1. 人工智能

算力
算法：感知型AI（语言、语音、图像）、决策型AI（规划、推理）
数据

2. 选择 DRL 的动机

搜索最优解的不同方式
用 RL 来优化
用 DL 来表征
决策问题的形式化定义

3. 搜索最优解的不同方式

从模仿中学习：归纳与演绎、判别与生成、精确性与多样性
从试错中学习：探索与利用、随机与确定、拟合与泛化

4. RL 的特点

可以建模环境的未知性和不确定性
需要从奖励中学习
训练过程是一个在线学习过程，需要平衡探索和利用

5. RL 结合 DL 的原因

DNN 拥有强大的非线性建模能力和表征能力，可以处理各种模态的输入和输出，可以作为复杂决策场景的输入和输出的建模，可以建模多模态观察空间和混合动作空间
可以用 DL 建模 RL 中独有的一些算法概念

6. 形式化定义 RL 的方法

问题环境
优化目标
马尔科夫决策过程

7. 策略梯度

在线搜集数据：数据收集器、学习器
设计目标：
优化策略------策略梯度定理：增大策略选择高回报值动作的概率，减小策略选择低回报值动作的概率（类似极大似然估计）

8. 策略梯度的发展史

8.1 Reinforce：Actor-Critic、A2C、A3C

8.2 TRPO：ACKTR、PPO

DPG：DDPG、TD3

上一篇：【剑斩OFFER】算法的暴力美学——排序数组

下一篇：数据结构：堆

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05OpenClaw优化飞书API 额度已耗尽问题 06小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程