Policy model

Policy Model(策略模型)极简说

强化学习里负责输出动作/决策的网络就是policy model。

• 输入当前状态,输出该做什么动作、每个动作的概率;

• 大模型RLHF里,policy model就是主大模型,用来生成回答。

一句话:拿主意、输出行为的模型。

与backbone模型的关系:

  1. Policy model(策略模型):RL里专门用来输出动作(LLM里就是生成文本)的模型,是RL流程里的决策主体。

  2. Backbone(骨干/基座):模型底层基础权重,是policy model的载体。

直白讲:

RLHF里,SFT微调后的基座backbone,包装成policy model来做文本生成;

backbone是权重本体,policy model是它在强化学习里的角色叫法,二者不是完全同一个概念,但共用一套主干网络。

相关推荐
chlorine52 小时前
【神经网络】——卷积层、池化层、线性层
深度学习·神经网络·cnn
Sirius Wu3 小时前
Agentic端到端&分离式RL技术建设
人工智能·深度学习·机器学习·caffe
Unity官方开发者社区4 小时前
团结引擎动画系统|Event Graph CodeGen:一键编译图逻辑,提升运行时性能
深度学习
湘美书院--湘美谈教育4 小时前
湘美谈教育AI经验集锦:有些东西,它们很难蒸馏
大数据·人工智能·深度学习·机器学习
xixixi777775 小时前
空天地通信、高速光模块、AI 智能体攻击、同态加密芯片四大事件解读:AI 算力底座攻防与全域通信同步升级
大数据·人工智能·深度学习·ai·大模型·光模块·智能体
快乐得小萝卜5 小时前
论文:π0.5
笔记·深度学习
路人甲3265 小时前
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
人工智能·深度学习·计算机视觉·机器人·具身智能
湘美书院--湘美谈教育5 小时前
湘美谈教育AI经验集锦:细分领域的标准定义者
大数据·人工智能·深度学习
keykey6.6 小时前
迁移学习实战:用预训练模型做图像分类
开发语言·人工智能·深度学习·机器学习