学习笔记 |【PPO × Family】第一课:开启决策 AI 探索之旅

学习来源

【PPO × Family】第一课:开启决策 AI 探索之旅

1. 人工智能

  • 算力
  • 算法:感知型AI(语言、语音、图像)、决策型AI(规划、推理)
  • 数据

2. 选择 DRL 的动机

  • 搜索最优解的不同方式
  • 用 RL 来优化
  • 用 DL 来表征
  • 决策问题的形式化定义

3. 搜索最优解的不同方式

  • 从模仿中学习:归纳与演绎、判别与生成、精确性与多样性
  • 从试错中学习:探索与利用、随机与确定、拟合与泛化

4. RL 的特点

  • 可以建模环境的未知性和不确定性
  • 需要从奖励中学习
  • 训练过程是一个在线学习过程,需要平衡探索和利用

5. RL 结合 DL 的原因

  • DNN 拥有强大的非线性建模能力和表征能力,可以处理各种模态的输入和输出,可以作为复杂决策场景的输入和输出的建模,可以建模多模态观察空间和混合动作空间
  • 可以用 DL 建模 RL 中独有的一些算法概念

6. 形式化定义 RL 的方法

  • 问题环境

  • 优化目标


  • 马尔科夫决策过程

7. 策略梯度

  • 在线搜集数据:数据收集器、学习器
  • 设计目标:
  • 优化策略------策略梯度定理:增大策略选择高回报值动作的概率,减小策略选择低回报值动作的概率(类似极大似然估计)

8. 策略梯度的发展史

8.1 Reinforce:Actor-Critic、A2C、A3C


8.2 TRPO:ACKTR、PPO




  • DPG:DDPG、TD3
相关推荐
北邮刘老师2 分钟前
“移动梦网”走了,“移动智网”会来吗?
人工智能·大模型·智能体·智能体互联网
Python私教4 分钟前
如意知识库工厂:我用 DocsGPT 跑通了一套私有 RAG 问答系统
人工智能
刘一说8 分钟前
AI科技热点日报 | 2026年7月3日
人工智能·科技
程序喵大人9 分钟前
【AI专栏】图解Transformer - 第01章:建立直觉
人工智能·深度学习·ai·transformer
2601_962344629 分钟前
计算机毕业设计之基于大数据的投保数据的分析系统的设计与实现
大数据·人工智能·深度学习·机器学习·信息可视化·小程序·课程设计
手写码匠12 分钟前
手写 LLM 结构化输出引擎 —— 从 JSON Schema 约束到类型安全的数据提取
人工智能·深度学习·算法·aigc
QYR-分析14 分钟前
柔性传感新赛道崛起:织物压力传感器行业发展全景解析
大数据·人工智能
Token炼金师24 分钟前
架构的岔路:Decoder 一统江湖,MoE 另辟蹊径 —— 主流架构变体的工程权衡
人工智能·encoder-decoder·moe·decoder-only
吃好睡好便好30 分钟前
泰戈尔的诗歌6
学习·生活
双吉堡32 分钟前
北京通州有哪些热门且专业的学画画画室?
学习