reward model - reward model技术,学习,经验文章

阿杰学AI

7 个月前

AI核心知识43——大语言模型之RM（简洁且通俗易懂版）奖励模型（Reward Model，简称 RM）是大语言模型在 RLHF（基于人类反馈的强化学习）阶段中不可或缺的一个组件。