强化学习原理(二)

一、贝尔曼最优公式(BOE)

Motivating examples:

贝尔曼最优公式:

贝尔曼最优公式(矩阵向量形式):

求解贝尔曼最优公式:

贝尔曼公式求解以及最优性:

**Fixed point:**f(x) = x

Contraction mapping:

Contraction mapping Theorem:

二、值迭代与策略迭代

值迭代算法:

① Policy update

② Value update

策略迭代算法:

① policy evaluation:

② policy improvement:

相关推荐
Danceful_YJ4 小时前
33.Transformer架构
人工智能·pytorch·深度学习
美狐美颜SDK开放平台6 小时前
美颜SDK性能优化实战:GPU加速与AI人脸美型的融合开发
人工智能·音视频
AI浩6 小时前
VSSD:具有非因果状态空间对偶性的视觉Mamba模型
人工智能·目标检测·计算机视觉
lqqjuly7 小时前
Lidar调试记录Ⅳ之Ubuntu22.04+ROS2+Livox_SDK2环境下编译Livox ROS Driver 2
人工智能·机器人·自动驾驶
qq_436962187 小时前
数据中台:打破企业数据孤岛,实现全域资产化的关键一步
数据库·人工智能·信息可视化·数据挖掘·数据分析
宇若-凉凉8 小时前
BERT 完整教程指南
人工智能·深度学习·bert
JD技术委员会8 小时前
如何在跨部门沟通失误后进行协调与澄清
人工智能
PcVue China8 小时前
PcVue X 工控——工厂数字化转型与落地巡回研讨会圆满举行
人工智能·软件工程·scada·监控平台·工控网
StarPrayers.9 小时前
自蒸馏学习方法
人工智能·算法·学习方法
咚咚王者9 小时前
人工智能之编程进阶 Python高级:第十一章 过渡项目
开发语言·人工智能·python