[搜广推]王树森推荐算法——基于物体的协同过滤

基于物体的协同过滤 ItemCF

基于物体的协同过滤(Item-Based Collaborative Filtering,简称ItemCF)是一种经典的推荐系统算法

基本思想

  • 量化用户对物品的兴趣,通过分析用户的行为来找到与目标物品相似的其他物品,然后将这些相似物品推荐给喜欢目标物品的用户
  • ItemCF算法认为:如果用户喜欢物品item1,而且物品item1与item2相似,那么用户很可能喜欢物品item2

计算方法

  • 量化用户对物品的兴趣(点击点赞收藏转发)
  • 计算用户对每个交互过的物品的兴趣(绿色)
  • 计算用户交互过的每个物品与未交互过的物品之间的相似度(蓝色)
  • 计算完后二者相乘,所有乘积累加得到最后结果,这个结果是用户对候选物品兴趣的预估

物品的相似度

可以从数据中挖掘出物品的相似度

  • 如果两个物品的受众完全不重合,则说明这两个物品不相似
  • 两个物品的受众重合度越高,两个物品越相似

计算物品相似度

把每个物品表示为一个稀疏向量,向量每个元素对应一个用户相似度

sim 就是两个向量夹角的余弦

简化版

  • 相似度是介于0~1之间的数,数值越大表示两个物品越相似(因为 v v v比 W 1 W_1 W1 和 W 2 W_2 W2都小,所以介于0~1之间)

  • 这个公式没有考虑喜欢的程度

    完整版

  • 分子把用户 v v v对物品 i 1 i_1 i1、 i 2 i_2 i2的兴趣分数相乘后连加

  • 连加是关于同时喜欢物品 i 1 i_1 i1、 i 2 i_2 i2的用户 v v v取的,当兴趣分数取0或1时变成上面那样,分子是同时喜欢两个物品的人数

  • 这个公式的本质是余弦相似度

召回业务流程

  1. 离线计算建立两个索引
  • 建立"用户-->物品"的索引
    • 记录每个用户最近交互过的物品ID
    • 给定任意用户ID,可以找到他近期感兴趣的物品列表。
  • 建立"物品-->物品"的索引
    • 计算物品之间两两相似度
    • 对于每个物品,索引它最相似的k个物品
    • 给定任意物品ID,可以快速找到它最相似的k个物品
  1. 线上做召回
  • 给定用户ID,通过"用户-->物品"索引,找到用户近期感兴趣的物品列表(last-n)
  • 对于last-n列表中每个物品,通过"物品-->物品"的索引,找到 top-k相似物品
  • 对于取回的相似物品(最多有nk个),用公式预估用户对物品的兴趣分数
  • 返回分数最高的100个物品,作为推荐结果

为什么用索引?

索引的意义在于避免枚举所有的物品。

用索引,离线计算量大,线上计算量小。

相关推荐
空白到白9 分钟前
决策树-面试题
算法·决策树·机器学习
flashlight_hi10 分钟前
LeetCode 分类刷题:2563. 统计公平数对的数目
python·算法·leetcode
java1234_小锋11 分钟前
Scikit-learn Python机器学习 - 特征预处理 - 归一化 (Normalization):MinMaxScaler
python·机器学习·scikit-learn
西猫雷婶16 分钟前
scikit-learn/sklearn学习|广义线性回归损失函数的基本表达式
深度学习·神经网络·学习·机器学习·线性回归·scikit-learn·概率论
前端世界26 分钟前
HarmonyOS 数据处理性能优化:算法 + 异步 + 分布式实战
算法·性能优化·harmonyos
楼田莉子29 分钟前
C++算法专题学习:栈相关的算法
开发语言·c++·算法·leetcode
kyle~1 小时前
排序---冒泡排序(Bubble Sort)
c语言·c++·算法
l1t1 小时前
我改写的二分法XML转CSV文件程序速度追上了张泽鹏先生的
xml·c语言·人工智能·算法·expat
一碗白开水一1 小时前
【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文阅读·人工智能·深度学习·算法·目标检测·计算机视觉·3d
nju_spy1 小时前
李沐深度学习论文精读(二)Transformer + GAN
人工智能·深度学习·机器学习·transformer·gan·注意力机制·南京大学