学习笔记 |【PPO × Family】第一课:开启决策 AI 探索之旅

学习来源

【PPO × Family】第一课:开启决策 AI 探索之旅

1. 人工智能

  • 算力
  • 算法:感知型AI(语言、语音、图像)、决策型AI(规划、推理)
  • 数据

2. 选择 DRL 的动机

  • 搜索最优解的不同方式
  • 用 RL 来优化
  • 用 DL 来表征
  • 决策问题的形式化定义

3. 搜索最优解的不同方式

  • 从模仿中学习:归纳与演绎、判别与生成、精确性与多样性
  • 从试错中学习:探索与利用、随机与确定、拟合与泛化

4. RL 的特点

  • 可以建模环境的未知性和不确定性
  • 需要从奖励中学习
  • 训练过程是一个在线学习过程,需要平衡探索和利用

5. RL 结合 DL 的原因

  • DNN 拥有强大的非线性建模能力和表征能力,可以处理各种模态的输入和输出,可以作为复杂决策场景的输入和输出的建模,可以建模多模态观察空间和混合动作空间
  • 可以用 DL 建模 RL 中独有的一些算法概念

6. 形式化定义 RL 的方法

  • 问题环境

  • 优化目标


  • 马尔科夫决策过程

7. 策略梯度

  • 在线搜集数据:数据收集器、学习器
  • 设计目标:
  • 优化策略------策略梯度定理:增大策略选择高回报值动作的概率,减小策略选择低回报值动作的概率(类似极大似然估计)

8. 策略梯度的发展史

8.1 Reinforce:Actor-Critic、A2C、A3C


8.2 TRPO:ACKTR、PPO




  • DPG:DDPG、TD3
相关推荐
Xiaofeng36934 分钟前
GPT-4o国内注册保姆级教程(2026最新版):开发者高效访问与避坑实战
人工智能·chatgpt
AI科技星15 分钟前
数术江湖·全卷合集 - 硬核江湖・数理史诗
android·人工智能·架构·概率论·学习方法
旅僧21 分钟前
Π0 理论讲解更新中
学习
humors22131 分钟前
AI案例:头脑风暴创作-正反论证-报告撰写-摘要总结
人工智能·ai·写作·总结·案例·论证
HIT_Weston34 分钟前
115、【Agent】【OpenCode】项目配置(SemVer)
人工智能·agent·opencode
Sam092735 分钟前
OpenClaw 和 Hermes 怎么结合:从聊天入口到隔离执行器的 Agent 工程实践
人工智能·ai
沪漂阿龙41 分钟前
LangChain 系列之 Messages:为什么大模型对话不是简单字符串?
人工智能·深度学习·langchain
jiuLives42 分钟前
从 Prompt Engineering 到 Loop Engineering:AI 工程范式的演进
人工智能·prompt
ACP广源盛1392462567342 分钟前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
SEOETC1 小时前
GEO:杭州AI优化企业实战指南
人工智能·搜索引擎