策略学习笔记

Vπ是Qπ关于动作a的期望。状态价值函数是动作价值函数的期望,评价当前状态和策略网络的好坏,给定状态S,策略网络越好V就越大。

用策略网络来近似策略函数。

关于状态S求期望,相当于对策略网络做评价。策略梯度就是价值数V关于 的导数

离散情况:

连续情况:

估算目标价值函数:

用Ut的观测值ut来近似Qπ,REINFORCE算法就是用观测到的ut来代替动作价值函数,需要玩完整局游戏观测到所有奖励才能更新策略网络

相关推荐
RainCity4 天前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
LinXunFeng11 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
通信小呆呆15 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick15 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee15 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
Alsn8615 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e15 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨15 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
闪闪发亮的小星星15 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq15 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息