基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
weixin_437497772 小时前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
喝拿铁写前端2 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat2 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技2 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪2 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子2 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z2 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人3 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程
橙汁味的风3 小时前
1隐马尔科夫模型HMM与条件随机场CRF
人工智能·深度学习·机器学习
极客小云3 小时前
【生物医学NLP信息抽取:药物识别、基因识别与化学物质实体识别教程与应用】
python·机器学习·nlp