AI核心知识62——大语言模型之PRM (简洁且通俗易懂版)

PRMProcess Reward Model(过程奖励模型)的缩写。

它是为了解决 AI 在处理复杂推理任务(如奥数题、长代码)时,"只看结果、不看过程"导致学习效率低下的问题而诞生的技术。

如果说 ORM (结果奖励模型) 是**"只看分数的严厉考官"** 那么 PRM 就是**"按步骤给分的耐心老师"** 。

它是 OpenAI 在"Let's Verify Step by Step"这篇著名论文中提出的核心概念,被认为是训练 o1 (Strawberry) 等推理模型的关键钥匙。


1.🏫 核心比喻:给"步骤分"

为了理解 PRM,我们拿做数学题来举例。

假设有一道很难的题,需要 10 个步骤才能算出答案。

  • 没有 PRM ( ORM - 结果奖励)

    • AI 算到了第 9 步,都是对的,但第 10 步不小心算错了一个小数点,导致最终答案错。

    • 反馈:0 分!

    • AI 的困惑:"我到底哪错了?是第 1 步就错了,还是最后错了?"它不知道,它只知道自己被惩罚了。这导致它学得很慢。

  • 有了 PRM (过程奖励)

    • AI 每写一步,PRM 就打一次分。

    • 反馈:第 1 步 ✅,第 2 步 ✅ ... 第 9 步 ✅,第 10 步 ❌。

    • AI 的顿悟:"哦!原来我前 9 步是对的,只有最后一步需要改。"

    • 结果:AI 能迅速定位错误,学习效率呈指数级提升。


2.⚙️ PRM 解决了什么痛点?(信用分配问题)

在机器学习中,有一个著名的难题叫 "信用分配问题 (Credit Assignment Problem)"

当你面对一个长长的思维链(Chain of Thought),如果只给出最终的"好/坏"评价,模型很难知道具体是哪一个环节导致了成功或失败。

  • ORM (Outcome Reward Model)

    • 稀疏反馈。整页纸只给一个分。

    • 容易出现**"逻辑谬误"** :有时候 AI 过程全是错的,但瞎猫碰死耗子蒙对了答案,ORM 会奖励它,导致 AI 学会了错误的逻辑。

  • PRM (Process Reward Model)

    • 密集反馈。每一行代码、每一个推理步骤都给分。

    • 它强迫 AI 必须步步为营,确每一环逻辑都是严密的。


3.🧠 PRM 与"搜索"的结合 (Search Strategy)

PRM 真正的威力,在于它结合了我们之前提到的 ToT (思维树)MCTS (蒙特卡洛树搜索)

想象 AI 在下围棋(AlphaGo):

  • 因为它能判断**"这一步棋"** 的好坏(PRM 的能力),而不需要等到下完这一整盘棋(ORM 的能力)。

  • 所以,AI 可以在推理过程中,一旦发现某一步得分低(PRM 给低分),就立刻 剪枝 ( Pruning ),放弃这条路,去尝试别的路。

这就是 OpenAI o1 这种模型"慢思考"的本质: 它在脑子里尝试各种路径,PRM 就像路标一样告诉它:"这条路不通,走那条。"最终,它输出给你的,是一条经过 PRM 严格筛选过的最佳路径。


4.📉 PRM 的代价

既然 PRM 这么好,为什么不早用? 因为数据太难搞了

  • ORM 数据:只需要题和答案。网上随便爬。

  • PRM 数据:需要人类专家把一道题的每一个步骤都拆解开,并对每一步进行标注。这需要极其昂贵的人力成本(通常需要数学博士或顶尖程序员来标注)。


总结

PRM (过程奖励模型) 是 AI 能够进行深度推理的质检员。

  • ORM 奖励的是结果 (Outcome)

  • PRM 奖励的是逻辑 (Logic)

正是因为有了 PRM,AI 才有能力从"模仿人类说话"进化到"像人类科学家一样严谨推导"。

相关推荐
迅筑科技-RPT4 小时前
达索系统第7代解决方案3D UNIV+RSES——释放企业数据潜能,拥抱更值得信赖的工业AI
3d·ai·达索系统·迅筑科技·3d univ+rses
ar01235 小时前
AR远程协助作用
人工智能·ar
北京青翼科技5 小时前
PCIe接口-高速模拟采集—高性能计算卡-青翼科技高品质军工级数据采集板-打造专业工业核心板
图像处理·人工智能·fpga开发·信号处理·智能硬件
软件聚导航5 小时前
马年、我用AI写了个“打工了马” 小程序
人工智能·ui·微信小程序
计算机小手6 小时前
一个带Web UI管理的轻量级高性能OpenAI模型代理网关,支持Docker快速部署
经验分享·docker·语言模型·开源软件
陈天伟教授6 小时前
人工智能应用-机器听觉:7. 统计合成法
人工智能·语音识别
笨蛋不要掉眼泪7 小时前
Spring Boot集成LangChain4j:与大模型对话的极速入门
java·人工智能·后端·spring·langchain
昨夜见军贴06167 小时前
IACheck AI审核技术赋能消费认证:为智能宠物喂食器TELEC报告构筑智能合规防线
人工智能·宠物
DisonTangor7 小时前
阿里开源语音识别模型——Qwen3-ASR
人工智能·开源·语音识别
万事ONES7 小时前
ONES 签约北京高级别自动驾驶示范区专设国有运营平台——北京车网
人工智能·机器学习·自动驾驶