动手学强化学习 第6章 Dyna-Q 算法

第六章

重点:

提出了有模型算法和无模型算法。

强化学习算法有两个重要的评价指标:一个是算法收敛后的策略在初始状态下的期望回报,另一个是样本复杂度,即算法达到收敛结果需要在真实环境中采样的样本数量。

核心的改动应该是指这个,利用模型去(学习or记录)一个占用度量对应的奖励和下一状态,然后使用它去更状态新价值函数,从代码上看也是做了类似的工作。

Q-planning可以有效加速收敛。

有必要反问一下这么做的动机是什么?

口胡一下,即为什么要在现在去做随机更新价值的这个动作:占用度量的状态价值函数的定义是当前状态到未来最终状态的累积懊悔(指负回报),而在前期更新状态价值函数时,对下一状态初始化其实都是0,没有形成传递链。只有随着迭代的深入,传递链才会被慢慢建立起来,而Q_learning做的工作实际上就是在加速传递链的建立。

问了GPT他也是认同的:

Q-learning / Q-planning 的目标是加速 Bellman 信号的传播,从而更快地建立起状态之间的价值传递链。

相关推荐
风筝在晴天搁浅4 分钟前
LeetCode 162.寻找峰值
算法·leetcode
itzixiao20 分钟前
L1-067 洛希极限(10分)[java][python]
java·开发语言·算法
jinyishu_26 分钟前
链表经典OJ题
c语言·数据结构·算法·链表
葫三生32 分钟前
三生原理文章被AtomGit‌开源社区收录的意义探析?
人工智能·深度学习·神经网络·算法·搜索引擎·开源·transformer
AI进化营-智能译站35 分钟前
ROS2 C++开发系列15-模板实现通用算法|宏定义ROS2调试开关|一次编码适配多平台
java·c++·算法·ai
刀法如飞38 分钟前
Java数组去重的20种实现方式——指导AI解决不同问题的思路
java·算法·面试
良木生香43 分钟前
【C++初阶】STL——Vector从入门到应用完全指南(1)
开发语言·c++·神经网络·算法·计算机视觉·自然语言处理·数据挖掘
Brilliantwxx43 分钟前
【C++】String的模拟实现(代码实现与坑点讲解)
开发语言·c++·笔记·算法
憨波个1 小时前
【说话人日志】DOVER:diarization 输出融合算法
人工智能·算法·音频·语音识别·聚类
爱学习的张大1 小时前
具身智能论文问答(四):pi0
人工智能·算法