Policy Model(策略模型)极简说
强化学习里负责输出动作/决策的网络就是policy model。
• 输入当前状态,输出该做什么动作、每个动作的概率;
• 大模型RLHF里,policy model就是主大模型,用来生成回答。
一句话:拿主意、输出行为的模型。
与backbone模型的关系:
-
Policy model(策略模型):RL里专门用来输出动作(LLM里就是生成文本)的模型,是RL流程里的决策主体。
-
Backbone(骨干/基座):模型底层基础权重,是policy model的载体。
直白讲:
RLHF里,SFT微调后的基座backbone,包装成policy model来做文本生成;
backbone是权重本体,policy model是它在强化学习里的角色叫法,二者不是完全同一个概念,但共用一套主干网络。