Policy model

不当菜鸡的程序媛2026-06-09 17:35

Policy Model（策略模型）极简说

强化学习里负责输出动作/决策的网络就是policy model。

• 输入当前状态，输出该做什么动作、每个动作的概率；

• 大模型RLHF里，policy model就是主大模型，用来生成回答。

一句话：拿主意、输出行为的模型。

与backbone模型的关系：

Policy model（策略模型）：RL里专门用来输出动作（LLM里就是生成文本）的模型，是RL流程里的决策主体。
Backbone（骨干/基座）：模型底层基础权重，是policy model的载体。

直白讲：

RLHF里，SFT微调后的基座backbone，包装成policy model来做文本生成；

backbone是权重本体，policy model是它在强化学习里的角色叫法，二者不是完全同一个概念，但共用一套主干网络。

上一篇：GemDesign MCP协议详解：从原型到代码的完整技术链路

下一篇：JMM 进阶：彻底理解 CAS 实现原理

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元