策略学习笔记

Vπ是Qπ关于动作a的期望。状态价值函数是动作价值函数的期望,评价当前状态和策略网络的好坏,给定状态S,策略网络越好V就越大。

用策略网络来近似策略函数。

关于状态S求期望,相当于对策略网络做评价。策略梯度就是价值数V关于 的导数

离散情况:

连续情况:

估算目标价值函数:

用Ut的观测值ut来近似Qπ,REINFORCE算法就是用观测到的ut来代替动作价值函数,需要玩完整局游戏观测到所有奖励才能更新策略网络

相关推荐
AI_零食1 小时前
HarmonyOS ArkTS 类型转换机制深度解析
学习·华为·harmonyos·鸿蒙
vortex51 小时前
苏格拉底学习法:通过提问驱动的深度思考
学习
Cloud_Shy6181 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 36 - 39)
开发语言·人工智能·笔记·python
爱喝水的鱼丶1 小时前
SAP-ABAP:SAP多表连接视图实战:内连接/外连接配置逻辑与性能优化技巧
运维·开发语言·学习·性能优化·sap·abap
星恒随风1 小时前
C++ 类和对象入门(六):友元、内部类、匿名对象和编译器优化
开发语言·c++·笔记·学习·状态模式
结城明日奈是我老婆1 小时前
stm32的TIM和PWM学习笔记
笔记·stm32·学习
AI_零食1 小时前
HarmonyOS ArkTS 数据格式化技术深度解析
学习·华为·harmonyos·鸿蒙
暗夜猎手-大魔王1 小时前
hermes源码学习7--会话存储
人工智能·学习
上海观智网络1 小时前
健身房瑜伽馆想开发小程序,上海靠谱服务商怎么选?
经验分享·笔记