【推荐算法的评估与调试】离线评估+在线A/B Test

masterleoo2024-06-17 18:05

文章目录

1、离线评估
- 1.1、评估排序算法
- - 1.1.1、AUC和GAUC
  - 1.1.2、NDCG
- 1.2、评估召回算法
- - 1.2.1、Precision&Recall
  - 1.2.2、MAP
  - [1.2.3、Hit Rate](#1.2.3、Hit Rate)
  - 1.2.4、持续评估
2、在线评估
- 2.1、线上：流量划分
- - [2.1.1、根据User ID划分流量](#2.1.1、根据User ID划分流量)
  - 2.1.2、分层重叠划分流量
  - 2.1.3、A/A实验的重要性
- 2.2、线下：统计分析
2.3、其他事项
模型上线前需要进行离线评估；模型上线后需要进行在线评估。
推荐系统的评估流程：

1）离线评估：在相同的训练集上，不同算法训练出新旧两版模型，在同一个测试集上进行评估。若新模型的指标优于旧模型，则通过离线测试，可进入下一阶段。注意：离线评估的训练集一般采用连续3天或7天的历史数据；在第4天或第8天的数据上测试
2）上线前回溯：新模型在上线评估之前必须先进行回溯，比如自两周前的历史数据开始训练，直到追平并接入线上的实时样本流。之后，新旧模型就能够同步接收线上的实时反馈并自我更新，才能进行后续A/B实验的在线评估
3）在线评估：A/B 实验，随机划分为两份流量：控制组（流入老模型）；实验组（流入新模型，可以有多个）。实验一段时间后，统计关键业务指标（例如CTR、平均观看时长等），若实验组显著优于控制组，就认为新模型优于旧模型，可考虑推广至全部流量

1、离线评估

主要针对排序（粗排和精排）和召回算法，存在不同的评估指标

1.1、评估排序算法

1.1.1、AUC和GAUC

评估排序模型最重要的指标是AUC（ROC曲线下面积，以TPR和FPR分别为纵坐标和横坐标）
AUC更为直观的解释：模型给一堆样本（正负类别标签已知）预测打分，然后将他们从大到小排序，正样本能够正确排在负样本前面的概率就是AUC

A U C = 正确排序的样本对所有样本对 AUC = \frac{正确排序的样本对}{所有样本对} AUC=所有样本对正确排序的样本对

一个正样本和负样本可组成一个样本对

正确排序是指按概率，将正样本排在负样本之前

下图显示的AUC为7/9

从上述定义来看，AUC天然适合衡量模型的排序性能，然而AUC体现的是全局的性能，会将所有用户的排序结果都考虑进来，可能会存在失真，因此可以引入GAUC（Groupwise AUC），将样本划分为group，每个group计算一个AUC，最后再加权平均
一般以用户为单位划分group计算GAUC：
G A U C = ∑ u w u A U C u ∑ u n u GAUC = \frac{ {\textstyle \sum_{u}w_uAUC_u} }{\sum_{u}n_u} GAUC=∑unu∑uwuAUCu

A U C u AUC_u AUCu是在用户u的样本上计算的AUC， n u n_u nu是给用户u曝光过的物料数目

由于AUC/GAUC只能针对的是二分类，对于CTR、CVR指标是可以的，针对实数型目标（比如观看时长、销售金额），可以转换为二分类目标，例如是否会有效播放（观看超过15秒）、是否会长播放

1.1.2、NDCG

需要注意的一点是，物料在展示列表的位置可以反映物料的价值（越靠前，价值越高）
而AUC无法反应排序位置这个因素的影响
因此，引入DCG（Discounted Cumulative Gain）指标：
D C G @ K = ∑ k = 1 K 2 c k − 1 l o g 2 k + 1 DCG@K = \sum_{k=1}^{K}\frac{2^{c_k}-1}{log_2{k+1}} DCG@K=k=1∑Klog2k+12ck−1

K是排序结果的长度

c k c_k ck是第k个位置的物料贡献，未点击为0，点击为观看时长、点赞等的函数

从上述公式可看出，越靠后的位置，其DCG越大

为了做归一化，定义理想情况下的DCG为IDCG，即按照物料的真实贡献从高到低排序计算出的DCG，然后得到NDCG（Normalized DCG）：
N D C G @ K = D C G @ K I D C G @ K NDCG@K = \frac{DCG@K}{IDCG@K} NDCG@K=IDCG@KDCG@K
由于排序长度不同，直接计算DCG不易比较，而归一化后的NDCG可以进行比较

1.2、评估召回算法

评估召回模型时，一般不用AUC这样强调排序性能的指标

如果用AUC进行评估，正样本为点击过的样本，而负样本若为曝光未点击的样本，与召回的真实样本情况（包含大量和用户毫不相关的样本）不符；若负样本为除点击之外的其他物料，也不能保证这些物料一定不喜欢

＊因此，要避免直接统计负样本，而是从预测的正样本与真实的正样本之间的命中率、覆盖度角度进行评估

1.2.1、Precision&Recall

以双塔召回模型为例，可进行如下P和R值的计算：

u i u_i ui表示第i次推荐请求的用户
T i e x p o s e T_i^{expose} Tiexpose表示第i次请求中向用户曝光的物料集合
T i c l i c k T_i^{click} Ticlick表示用户点击的物料集合

计算得到的** P r e c i s i o n @ K Precision@K Precision@K：平均下来，每次召回的物料中真正被用户喜欢的占比； R e c a l l @ K Recall@K Recall@K：平均下来，一个用户真正喜欢的物料中有多大占比能被模型召回。**

1.2.2、MAP

Precision和Recall是一对此消彼长的指标，即召回的越多，Recall越高，Precision会随之下降
因此采用AP值来衡量召回能力比P和R值更全面，计算过程为：设置不同i值，即取前i个物料作为召回结果计算PR曲线，以及曲线下面积即为AP。AP值的计算方法如下：
A P @ K = ∑ i = 1 K P r e c i s i o n @ i × I s P o s i t i v e @ i T o t a l P o s i t i v e s AP@K = \frac{ {\textstyle \sum_{i=1}^{K}}Precision@i\times IsPositive@i }{TotalPositives} AP@K=TotalPositives∑i=1KPrecision@i×IsPositive@i

K表示最大的召回数量

TotalPositives表示本次召回中用户喜欢物料的数目

Precision@i表示前i个召回结果的Precision

IsPositive@i表示第i个召回结果是否为用户所喜欢，喜欢为1，不喜欢为0

将多次召回结果的AP取平均，几位MAP，可以用来衡量模型的整体召回性能
例子和具体计算流程如下：

1.2.3、Hit Rate

Hit Rate表示在N条点击记录中，有多少物料可以被召回模型所覆盖

1.2.4、持续评估

模型需要实时地持续更新，同时也需要持续评估
为了实现无偏的估计，常采用Progressive Validation的方法

1）模型拿到最新一批的用户反馈后，先进行前向传播得到预测结果

2）一边反向传播更新模型，一边拿预测结果与用户反馈真值计算各种评估指标

这种方式可以共用前向传播环节，避免重复计算；同时由于模型未更新，基于当前预测结果的指标是无偏的，更可信

2、在线评估

A/B实验是推荐系统中的最常用的线上评估方式，思路如下：

1）将用户流量随机划分为控制组和实验组

2）控制组流量流入老模型，实验组流量流入新模型，其中只有模型不同，其余的用户分布、物料分布等必须完全相同

3）上线实验一段时间，积累足够多的用户反馈

4）根据收集到的用户反馈，统计关键业务指标

5）若实验组的指标优于控制组，可以考虑新模型替换旧模型

A/B实验更加客观、公平可靠，但是其整个实验系统功能复杂、实现难度高，并且要求进行足够长的时间，至少覆盖一个完整的周期，例如一周（周中和周末不一样）
下面介绍线上实验和线下分析的关键知识点

2.1、线上：流量划分

线上的流量划分需要遵循以下两个原则，以保证两组流量的同分布原则：

1）随机性：一个用户被划分到控制组和实验组是完全随机的

2）确定性：当一个用户被划分到哪个组，今后的访问也必须在相同的组

2.1.1、根据User ID划分流量

最简单的方式是根据User ID随机划分到控制组和实验组
但是这种方式最大问题在于，一个用户一次只能进行一个实验，例如召回和精排很容易就将全部流量占满了，而通常有很多实验需要上线验证，就会导致排队阻塞的问题。
因此一般利用分层重叠的方式

2.1.2、分层重叠划分流量

分层划分的思想如下：

1）如果进行N个实验，就将流量划分为N层，每个实验独占一层流量

2）同一层实验的各个实验组的流量是互斥的，即一个用户只会被划分到一个组里

3）不同层的实验，流量是重叠的，一个用户可以被分配到不同层的多个组里

这种方式中，上下层的实验的流量完全正交，用户流量在前几层实验的不同划分，并不会在后续实验引入偏差。
需要注意的是，Layer层并没有层次的关系，就只是指的不同的实验，并且流量在进入一个新的实验前会被重新打散

2.1.3、A/A实验的重要性

A/A实验就是在控制组和实验组采用完全相同的配置
在进行正式的A/B实验前最好先进行一段时间的A/A实验，检验实验的两组流量是否存在偏差

2.2、线下：统计分析

可以通过显著性检验的方式验证新模型的性能，是否显著优于旧模型
常会遇到I类错误和II类错误

2.3、其他事项

在做出新模型推广至全部流量的决定时，还要综合来考虑业务收益的性价比，如果只有微小提升，对业务的影响微乎其微，就不值得推广
不止要考虑在全体流量上的结果，也要考察在细分流量上的差异（例如新老客户、不同国家、不同频道等）

参考书籍：

《互联网大厂推荐算法实战》

上一篇：Es 索引查询排序分析

下一篇：矩阵的迹（Trace）

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流