推荐系统常用指标NDCG含义及公式

NDCG(Normalized Discounted Cumulative Gain,归一化折损累计收益)是信息检索和推荐系统中最核心的评价指标之一。在评估基于大语言模型的重排(Re-ranking)或召回系统时,单纯依靠命中率(Hit Rate)往往不够,因为我们需要衡量排在前面的结果是否是最相关的

NDCG 的核心思想建立在两个假设之上:

  1. 高相关性的结果比一般相关性的结果更有价值。
  2. 排名越靠前的结果,被用户看到和点击的概率越大,因此其价值权重应该更高。

为了彻底搞懂 NDCG,我们需要把它拆解为四个步骤:CG →\rightarrow→ DCG →\rightarrow→ IDCG →\rightarrow→ NDCG


1. CG (Cumulative Gain) - 累计收益

最基础的一步是把推荐列表中前 ppp 个结果的相关性得分直接相加。
CGp=∑i=1preliCG_p = \sum_{i=1}^{p} rel_iCGp=i=1∑preli

  • ppp: 评估的截断位置(例如 NDCG@10 中的 10)。
  • relirel_ireli: 列表中第 iii 个位置物品的真实相关性得分(通常是人工标注或从用户反馈中定义的,如 0=不相关,1=弱相关,2=强相关)。

缺陷: CG 没有考虑位置因素。无论最相关的物品是排在第 1 位还是第 10 位,算出来的 CG 都是一样的。

2. DCG (Discounted Cumulative Gain) - 折损累计收益

为了解决位置权重的问题,DCG 引入了"折损(Discount)"机制。排名越靠后,折损越严重(通常通过对数函数来实现)。
DCGp=∑i=1prelilog⁡2(i+1)DCG_p = \sum_{i=1}^{p} \frac{rel_i}{\log_2(i+1)}DCGp=i=1∑plog2(i+1)reli
在一些工业界场景(包括像搜索或重排任务中更强调突出强相关物品时),通常会采用另一种指数形式的变形:
DCGp=∑i=1p2reli−1log⁡2(i+1)DCG_p = \sum_{i=1}^{p} \frac{2^{rel_i} - 1}{\log_2(i+1)}DCGp=i=1∑plog2(i+1)2reli−1

这种变形能够成倍放大高相关性物品的权重,从而严惩将极其相关的物品排在后面的策略。

3. IDCG (Ideal DCG) - 理想折损累计收益

缺陷: 不同的查询(Query)或用户交互历史,其候选集中的相关物品数量是不同的。比如 Query A 有 10 个相关商品,Query B 只有 2 个相关商品。直接对比这两者的 DCG 是不公平的,Query A 的 DCG 天生就会更高。

为了实现跨 Query 的横向对比,我们需要找到这个 Query 下完美的排序状态 。IDCG 就是将候选集中的物品按照相关性得分**从大到小(降序)**重新排列后,计算出的完美 DCG 值。
IDCGp=∑i=1∣RELp∣reliideallog⁡2(i+1)IDCG_p = \sum_{i=1}^{|REL_p|} \frac{rel_i^{ideal}}{\log_2(i+1)}IDCGp=i=1∑∣RELp∣log2(i+1)reliideal

  • ∣RELp∣|REL_p|∣RELp∣: 表示在理想状态下,排在前 ppp 个位置的最优相关性得分序列。

4. NDCG (Normalized DCG) - 归一化折损累计收益

最后一步,将实际的 DCG 处于理想的 IDCG,将指标压缩到 [0,1][0, 1][0,1] 的区间内。
NDCGp=DCGpIDCGpNDCG_p = \frac{DCG_p}{IDCG_p}NDCGp=IDCGpDCGp

  • NDCG = 1:意味着推荐模型的排序与完美排序完全一致。
  • NDCG 越接近 0:排序效果越差,高相关性的物品都被排到了后面。

相关推荐
2601_957780844 小时前
Claude 4.6 对阵 GPT-5.4:2026 开发者大模型 API 选型深度解析
人工智能·python·gpt·ai·claude
2601_957780844 小时前
GPT-5.5 深度解析:2026年4月OpenAI旗舰模型的技术跨越与商业决策指南
大数据·人工智能·python·gpt·openai
zhangfeng11334 小时前
利用WorkBuddy 国产小龙虾 制作视频 1 Remotion 方案 2 备选:moviepy 方案渲染视频
人工智能
hoiii1874 小时前
孤立森林 (Isolation Forest) 快速异常检测系统
算法
冬奇Lab4 小时前
RAG 系列(十四):Self-RAG——让模型决定要不要检索
人工智能·llm
chatexcel4 小时前
AI工具里的知识库是什么?定义、原理、场景与ChatExcel示例解析
人工智能
冬奇Lab4 小时前
一天一个开源项目(第99篇):AiToEarn - 用 AI 把内容变成收入的一站式平台
人工智能·开源·资讯
千叶风行5 小时前
Text-to-SQL 技术设计与注意事项
前端·人工智能·后端
夜郎king5 小时前
Spring AI 对接大模型开发易错点总结与实战解决办法
java·人工智能·spring
从孑开始5 小时前
manyspeech-cli 语音识别命令行工具
人工智能·语音识别·工具·asr