基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
IT_陈寒13 小时前
Vue 3.4 性能优化实战:7个被低估的Composition API技巧让你的应用提速30%
前端·人工智能·后端
while(努力):进步13 小时前
人工智能与边缘计算结合在智能电网负荷预测与优化调度中的应用探索
人工智能·边缘计算
2501_9411421313 小时前
边缘计算与5G结合在智慧交通信号优化与实时路况预测中的创新应用
人工智能·5g·边缘计算
Alang13 小时前
【LM-PDF】一个大模型时代的 PDF 极速预览方案是如何实现的?
前端·人工智能·后端
kupeThinkPoem14 小时前
代码生成工具Amazon CodeWhisperer介绍
人工智能
weixin79893765432...14 小时前
前端开发者如何拥抱 AI-Agent(科普)
人工智能·ai
晨非辰15 小时前
【数据结构初阶系列】归并排序全透视:从算法原理全分析到源码实战应用
运维·c语言·数据结构·c++·人工智能·python·深度学习
菠菠萝宝16 小时前
【Java手搓RAGFlow】-3- 用户认证与权限管理
java·开发语言·人工智能·llm·openai·qwen·rag
youngfengying17 小时前
《轻量化 Transformers:开启计算机视觉新篇》
人工智能·计算机视觉
搞科研的小刘选手19 小时前
【同济大学主办】第十一届能源资源与环境工程研究进展国际学术会议(ICAESEE 2025)
大数据·人工智能·能源·材质·材料工程·地理信息