[搜广推]王树森推荐算法——基于物体的协同过滤

古希腊掌管学习的神2024-12-18 22:29

基于物体的协同过滤 ItemCF

基于物体的协同过滤（Item-Based Collaborative Filtering，简称ItemCF）是一种经典的推荐系统算法

基本思想

量化用户对物品的兴趣，通过分析用户的行为来找到与目标物品相似的其他物品，然后将这些相似物品推荐给喜欢目标物品的用户
ItemCF算法认为：如果用户喜欢物品item1，而且物品item1与item2相似，那么用户很可能喜欢物品item2

计算方法

量化用户对物品的兴趣（点击点赞收藏转发）
计算用户对每个交互过的物品的兴趣（绿色）
计算用户交互过的每个物品与未交互过的物品之间的相似度（蓝色）
计算完后二者相乘，所有乘积累加得到最后结果，这个结果是用户对候选物品兴趣的预估

物品的相似度

可以从数据中挖掘出物品的相似度：

如果两个物品的受众完全不重合，则说明这两个物品不相似
两个物品的受众重合度越高，两个物品越相似

计算物品相似度

把每个物品表示为一个稀疏向量，向量每个元素对应一个用户相似度

sim 就是两个向量夹角的余弦

简化版：

相似度是介于0~1之间的数，数值越大表示两个物品越相似（因为 v v v比 W 1 W_1 W1 和 W 2 W_2 W2都小，所以介于0~1之间）
这个公式没有考虑喜欢的程度

完整版：
分子把用户 v v v对物品 i 1 i_1 i1、 i 2 i_2 i2的兴趣分数相乘后连加
连加是关于同时喜欢物品 i 1 i_1 i1、 i 2 i_2 i2的用户 v v v取的，当兴趣分数取0或1时变成上面那样，分子是同时喜欢两个物品的人数
这个公式的本质是余弦相似度

召回业务流程

离线计算建立两个索引

建立"用户-->物品"的索引
- 记录每个用户最近交互过的物品ID
- 给定任意用户ID，可以找到他近期感兴趣的物品列表。
建立"物品-->物品"的索引
- 计算物品之间两两相似度
- 对于每个物品，索引它最相似的k个物品
- 给定任意物品ID，可以快速找到它最相似的k个物品

线上做召回

给定用户ID，通过"用户-->物品"索引，找到用户近期感兴趣的物品列表(last-n)
对于last-n列表中每个物品，通过"物品-->物品"的索引，找到 top-k相似物品
对于取回的相似物品(最多有nk个)，用公式预估用户对物品的兴趣分数
返回分数最高的100个物品，作为推荐结果

为什么用索引？

索引的意义在于避免枚举所有的物品。

用索引，离线计算量大，线上计算量小。

上一篇：音频数据采样入门详解 - 给Python初学者的简单解释

下一篇：《Vue进阶教程》第十课：其它函数

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09历年考研数学一、数学二、数学三真题试卷及答案PDF 102026 年 AI 大模型 & AI 编程工具实战全总结