基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
大模型真好玩13 分钟前
LangGraph智能体开发设计模式(三)——LangGraph多智能体设计模式:主管架构与分层架构
人工智能·langchain·agent
皇族崛起34 分钟前
【视觉多模态】- 3D建模尝试 I (广场3D建模,失败)
数据库·人工智能·3d·性能优化
Loo国昌41 分钟前
RAG 第一阶段:前沿技术剖析与环境搭建
人工智能·后端·语言模型·架构
ZKNOW甄知科技1 小时前
2025 甄知科技年度报告
运维·人工智能·低代码·ci/cd·自动化·数据库架构·敏捷流程
Keep_Trying_Go1 小时前
基于无监督backbone无需训练的类别无关目标统计CountingDINO算法详解
人工智能·python·算法·多模态·目标统计
爱思德学术1 小时前
中国计算机学会(CCF)推荐学术会议-C(软件工程/系统软件/程序设计语言):IEEE COMPSAC 2026
人工智能·区块链·软件工程
拖拖7651 小时前
打破固定输出的边界:深入解读 Pointer Networks (Ptr-Nets)
人工智能
sy134108191952 小时前
AI服务器设备中ISO系列信号隔离器应用场景
运维·服务器·人工智能
nvd112 小时前
FastMCP 开发指南: 5分钟入门
人工智能·python
wp123_12 小时前
反激应用1:1贴片耦合电感选择:Coilcraft LPD3015-473MR vs 国产兼容 TONEVEE CDD3015-473M
人工智能·制造