机器学习排序方法

文军的烹饪实验室2024-05-27 12:40

一、单文档方法（Pointwise）

处理对象是单一文档，将文档转换为特征向量后，将排序问题转化为机器学习中常规的分类或回归问题。CTR方法是单文档方法的典型应用，相对比较成熟，广泛应用于广告、搜索、推荐中。y=f(x),其中y属于[0,1],y的值越大表示用户点击率越高。

样本之间互不影响

二、文档对方法（Pairwise）

相比于单文档方法，文档对方法将重点转向文档顺序关系，是目前相对比较流行的方法。其输入是文档对，输出是局部的优先顺序，主要是将排序问题转化为二分类问题。对于同一query的相关文档集中，任何两个不同标记的文档都可以组成一个训练实例(di,dj),如果di>dj，则赋值为1，视为正例；反之赋值为-1（或者0），视为负例，这样就得到二分类模型所需的训练样本。预测时可以得到所有文档的偏序关系，从而实现排序。

文档之间先后循序相互影响。

三、文档列表方法（Listwise）

把每个查询对应的所有搜索结果列表作为一个训练样例。根据训练样例训练得到的最优评分函数F，评分函数F对每个文档打分，然后根据得分由高到低排序，得到最终的排序结果。