基于模型的强化学习方法4大类灌水范式

我们都知道基于模型的强化学习,就是从数据中学一个环境模型。

举个例子,我们要控制一个马达,输入就是电流,输出就是转速。无模型强化学习就是随机采样,然后从数据中直接学习输入到输出的影射,研究重心在如何高效学习。

基于模型的强化学习,希望从输入输出中学习一个马达的状态转移模型,然后智能体和这个模型交互。这里面有什么问题呢?

问题就在于,这个模型一定会有误差。即使用数据去学习一个二次函数,也会有误差。如上图所示。

四大类灌水范式

上面这张图,一张图代表一类灌水范式。

  1. 第一类:用类似机器学习里面集成学习的方法,去减小这个model-bias;
  2. 第二类:用元学习的方法,期望策略能搞处理不同情况的model-bias;
  3. 第三类:希望model-bias对策略的影响要对齐;
  4. 第四类:这一类和前三类比是比较新的思路:model-bias和最终性能没有直接联系,搞定model-bias并不一定能够带来性能提升,搞定policy搞定一切。这个方向还有待大灌水。

原文:Understanding world models through multi-step pruning policy via reinforcement learning

链接:https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接:https://github.com/tinyzqh/MSPP/blob/master/Understanding world models through multi-step pruning policy via reinforcement learning.pdf

相关推荐
IT观测1 分钟前
品牌在AI中的影响力如何评估?2026年AI营销工具实战选型指南
大数据·人工智能
ai_xiaogui2 分钟前
PanelAI前端全面升级!私有化部署AI面板控制台+生态市场一键管理详解
前端·人工智能·comfyui一键部署·生态市场算力共享·ai面板控制台·panelai私有化部署·大模型前端管理
海水冷却5 分钟前
RTC成语音AI基础设施:AWS和ElevenLabs相继跟进,ZEGO已跑三年
人工智能·实时音视频·aws
QC·Rex6 分钟前
国产大模型应用实践:从 0 到 1 搭建企业级 AI 助手
人工智能·langchain·大语言模型·rag·企业应用·ai 助手
墨染天姬7 分钟前
【AI】ollama和vLLM怎么选
人工智能
源码学社9 分钟前
DeerFlow 2.0:字节跳动开源的超级智能体框架,让AI真正“干活”
人工智能·开源
xingyuzhisuan13 分钟前
租用GPU服务器后,快速搭建Stable Diffusion WebUI并实现公网访问全指南
服务器·人工智能·云计算·gpu算力
fengfuyao98517 分钟前
STM32智能桌面宠物-AI机器狗设计与实现
人工智能·stm32·宠物
nap-joker18 分钟前
【跨尺度】跨尺度多实例学习用于病理图像诊断
人工智能·学习·注意力机制·跨尺度·病理学切片
love530love19 分钟前
Windows 本地部署 IDM-VTON 虚拟试衣:排障版教程
人工智能·windows·python·virtual try-on