基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
青山科技分享3 小时前
iPaaS推荐:五大集成平台推荐指南
大数据·人工智能·ipaas推荐
羊羊小栈3 小时前
基于「YOLO目标检测 + 多模态AI分析」的篮球动作规范智能检测分析预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业
天上路人3 小时前
双波束拾音技术在双向翻译机中的应用 —— 基于 A-59F 模组的原理、效果与场景解析
人工智能·语音识别
Fleshy数模3 小时前
基于 LangChain 实现 PDF 文档检索:从加载到向量检索全流程
人工智能·数据挖掘·langchain·大模型
小袁说公考3 小时前
公考培训机构2025年度测评:财务健康度与用户体验重构排名格局
大数据·人工智能·经验分享·笔记·其他·重构·ux
xinlianyq3 小时前
2026 AI 生成电商短视频工具推荐与性价比分析,电商垂类与综合工具
人工智能·ai
跨境猫小妹3 小时前
爆款复制难度提高之后跨境卖家如何转向稳定型商品布局
大数据·人工智能·产品运营·跨境电商·营销策略
跟尚西学PowerBI3 小时前
【供应链AI实践案例】OpenClaw+PowerBI 打造 AI 智能库存预警实战
大数据·人工智能·数据分析·openclaw
动物园猫3 小时前
交通标识与信号灯数据集分享(适用于YOLO系列深度学习检测任务)
人工智能·深度学习·yolo
weixin_377634843 小时前
【SkillRL】强化学习详解
人工智能