基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
带娃的IT创业者1 小时前
AI Slop 正在吞噬互联网:当生成式泛滥成为技术社区的隐形杀手
人工智能·大模型·生成式ai·内容质量·ai slop·技术社区
qingyulee1 小时前
深度学习——神经网络基础
人工智能·深度学习·神经网络
程序员佳佳1 小时前
向量引擎:AI 时代的“记忆中枢“,从原理到落地的完整认知框架
人工智能·gpt·架构·aigc·ai编程
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月7日
人工智能·python·ai·信息可视化·自然语言处理·ai编程·灵砚智能
探客木木夕1 小时前
分布式全球类脑智能网络架构设计
网络·人工智能·分布式·边缘计算
郭老二1 小时前
【经验】CSDN-AI数字营销试用测评3
人工智能
一次旅行1 小时前
CopilotKit实战:用生成式UI打造智能Agent前端
前端·人工智能·ui
程序员老油条1 小时前
用 AI 生成复杂 SQL:LangChain4j + 本地模型实践
数据库·人工智能·sql
zhangfeng11331 小时前
想做自媒体数字人访谈视频,在百度 AI Studio 上安装 OpenAvatarChat,显存要求
人工智能·音视频·transformer·自媒体
烟雨江南7851 小时前
水泥回转窑烧成车间大功率冷却风机强粉尘低频共振噪底:基于“灵声智库”端侧自适应谱减降噪与信创工控芯片离线 ASR 安全控制系统
人工智能·安全·webrtc·语音识别·ai质检