【学习笔记】推荐系统 (6.排序:排序模型的特征、粗排的三塔模型)

网课:王树森 - 推荐系统公开课

6.1 排序模型的特征

6.1.1 用户画像 (User Profile)

  • 用户ID(在召回、排序中做embedding);
  • 人口统计学属性:性别、年龄;
  • 账号信息:新老、活跃度......;
  • 感兴趣的类目、关键词、品牌......

6.1.2 物品画像 (Item Profile)

  • 物品ID(在召回、排序中做embedding);
  • 发布时间(或者年龄);
  • GeoHash(经纬度编码)、所在城市;
  • 标题、类目、关键词、品牌......;
  • 字数、图片数、视频清晰度、标签数......
  • 内容信息量、图像美学。

6.1.3 用户统计特征

  • 用户最近30天(7天、1天、1小时)的曝光数、点击数、点赞数、收藏数;
  • 按照笔记图文/视频分桶(比如最近7天,该用户对图文笔记的点击率、对视频笔记的点击率);
  • 按照笔记类目分桶(比如最近30天,用户对美妆笔记的点击率、对美食笔记的点击率、对科技数码笔记的点击率)。

6.1.4 物品统计特征

  • 笔记最近30天(7天、1天、1小时)的曝光数、点击数、点赞数、收藏数;
  • 按照受众用户性别、年龄、地域等分桶;
  • 作者特征(发布笔记数、粉丝数、消费指标曝光数、点击数、点赞数、收藏数等)。

6.1.5 场景特征

  • 用户定位GeoHash(经纬度编码)、城市;
  • 当前时刻(分段,做embedding);
  • 是否是周末、是否是节假日;
  • 手机品牌、手机型号、操作系统(安卓、苹果用户点赞差异显著)。

6.1.6 特征处理

6.1.6.1 离线特征

做embedding。

包含用户ID、笔记ID、作者ID、类目、关键词、城市、手机品牌等。

6.1.6.2 连续特征

对于年龄、笔记字数、视频长度给等,做分桶,变成离散特征处理;

对于曝光数、点击率、点赞率等数值,做 log ⁡ ( 1 + x ) \log(1+x) log(1+x),转化为点击率、点赞率等值,并作平滑。

6.1.7 特征覆盖率

  • 很多特征无法覆盖100%样本(用户不填年龄、无法获取用户地理位置等);
  • 提高特征覆盖率,可以让精排模型更精准。
  • 当数据缺失时,默认值的设置也很重要。

6.1.8 数据服务

一种简单的排序时数据流程:

6.2 粗排的三塔模型

6.2.1 三塔模型结构


而对于模型上层:有 n n n个物品,模型上层就要做 n n n次推理,粗排推理的大部分计算量在上层。

6.2.2 三塔模型推理

从多个数据源获取特征:

  • 1个用户的画像、统计特征;
  • n n n个物品的画像、统计特征。
    用户塔只做1次推理,当物品塔未命中缓存时需要做推理,交叉塔必须做 n n n次推理。
    上层网络做 n n n次推理,给 n n n个物品打分。
相关推荐
一楼的猫6 小时前
AI写作合规技术方案:平台检测机制分析与规避策略
人工智能·学习·机器学习·ai写作
四月天437 小时前
web安全-SSTI(服务器模板注入)
笔记·学习·web安全·网络安全
网络与设备以及操作系统学习使用者8 小时前
相对论核心原理详解
学习·深度优先
疯狂打码的少年8 小时前
【操作系统】虚拟存储管理(局部性原理、缺页中断)
笔记
NULL指向我9 小时前
TMS320F28379D笔记5:CAN通信多邮箱配置
笔记
aaaameliaaa10 小时前
进制练习题【找出只出现一次的数字、交换两个变量(不创建临时变量)、统计二进制中1的个数、打印整数二进制的奇数位和偶数位、求两个数二进制中不同位的个数】
c语言·数据结构·笔记·算法
吃好睡好便好11 小时前
泰戈尔的诗歌7
学习·生活
-To be number.wan11 小时前
数据库系统 | 规范化理论
数据库·学习
RainCity11 小时前
Java Swing 自定义组件库分享(十三)
java·笔记·后端
星夜夏空9912 小时前
C++学习(2) —— 类与对象基础
开发语言·c++·学习