技术栈
过程奖励模型
阿杰学AI
3 小时前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
prm
·
过程奖励模型
AI核心知识62——大语言模型之PRM (简洁且通俗易懂版)
PRM 是 Process Reward Model(过程奖励模型)的缩写。它是为了解决 AI 在处理复杂推理任务(如奥数题、长代码)时,“只看结果、不看过程”导致学习效率低下的问题而诞生的技术。
我是有底线的