清华联合DeepSeek推出奖励模型新标杆！DeepSeek-GRM：让AI学会自我批评，推理性能越跑越强

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎯 "奖励模型革命！清华开源神器让AI学会自我批评，推理性能越跑越强"

大家好，我是蚝油菜花。当大多数AI还在用简单标量打分时，这个中国团队已经让模型学会写"千字论文式"评估报告了！

你是否被这些AI顽疾困扰过：

🤖 模型输出忽高忽低，像抽盲盒般难以预测
📊 传统奖励模型给分像玄学，完全看不懂扣分点
⏳ 复杂任务推理时，性能随计算量增加不升反降...

今天要解剖的 DeepSeek-GRM ，正在重写奖励模型规则！这个由清华与DeepSeek联手打造的"AI评分帝"，用三大黑科技碾压传统方案：

✅ 结构化评估报告：生成带原则分析的千字点评，拒绝"神秘扣分"
✅ 自我进化系统：通过批判式微调让模型越训练越犀利
✅ 推理加速奇迹：性能随计算资源增加线性提升，打破边际效应

已有团队用它48小时内调教出行业专属评审官，文末附《奖励模型调参圣经》------你的AI准备好接受专业级"毒舌"训练了吗？

🚀 快速阅读

DeepSeek-GRM是由DeepSeek与清华大学联合研发的通用奖励模型。

功能：采用结构化评估替代传统标量评分，支持智能问答、内容生成等多元场景
技术：融合点式生成式奖励建模与自我原则点评调优，实现推理时性能持续提升

DeepSeek-GRM 是什么

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型（Generalist Reward Modeling）。通过点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM）和自我原则点评调优（Self-Principled Critique Tuning, SPCT）等技术，显著提升了奖励模型的质量和推理时的可扩展性。

GRM通过生成结构化的评价文本（包括评价原则和对回答的详细分析）来输出奖励分数，不是直接输出单一的标量值。DeepSeek-GRM在多个综合奖励模型基准测试中表现优异，显著优于现有方法和多个公开模型。推理时扩展性能尤为突出，随着采样次数增加，性能持续提升。

DeepSeek-GRM 的主要功能

智能问答与对话：能快速回答各类问题，涵盖科学知识、历史文化、生活常识、技术问题等
内容生成：可以生成多种类型的内容，包括新闻报道、学术论文、商业文案、小说故事等
数据分析与可视化：能处理Excel表格、CSV文件等数据，进行数据清洗、统计分析
推理与逻辑能力：在数学、逻辑推理等方面表现出色，能够进行多步骤的推理和思考
API集成：提供API接口，方便开发者将其集成到自己的应用中

DeepSeek-GRM 的技术原理

点式生成式奖励建模（GRM）：通过生成结构化的评价文本来输出奖励分数，提高输入灵活性
自我原则点评调优（SPCT）：通过拒绝式微调和基于规则的在线强化学习训练模型
元奖励模型（Meta RM）：用于评估GRM生成的评价原则和点评的质量
多Token预测（MTP）：支持模型在一次前向传播中预测多个词元
混合专家架构（MoE）：通过动态选择专家网络减少不必要计算量
FP8混合精度训练：在训练时使用更合适的数据精度减少计算量

资源

技术论文 ：arxiv.org/pdf/2504.02...

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦