【强化学习】08周博磊强化学习纲要学习笔记——第四课下

今日课程提纲

今天是第四课,我将给大家介绍价值函数的近似,首先介绍价值函数近似的基本原理,价值函数近似如何在prediction,就是给定一个策略函数,如何去估计它的价值。另外会分析价值函数性是如何在控制里面的应用。最后分析非常有名的这个deep q network在atari游戏里面是如何应用的。

目录

  • [一、Intorduction on function approximation](#一、Intorduction on function approximation)

一、Intorduction on function approximation

相关推荐
齐生115 小时前
iOS 知识点 - IAP 是怎样的?
笔记
tingshuo29171 天前
D006 【模板】并查集
笔记
Baihai_IDP2 天前
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
人工智能·llm·强化学习
tingshuo29172 天前
S001 【模板】从前缀函数到KMP应用 字符串匹配 字符串周期
笔记
西岸行者7 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
starlaky7 天前
Django入门笔记
笔记·django
勇气要爆发7 天前
吴恩达《LangChain LLM 应用开发精读笔记》1-Introduction_介绍
笔记·langchain·吴恩达
悠哉悠哉愿意7 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
勇气要爆发7 天前
吴恩达《LangChain LLM 应用开发精读笔记》2-Models, Prompts and Parsers 模型、提示和解析器
android·笔记·langchain
别催小唐敲代码7 天前
嵌入式学习路线
学习