搜广推校招面经四十五

Y1nhl2025-03-13 19:01

快手主站推荐算法

这个是做因果选券的，如果大家的工作和这个有关，可以看看

一、有没有分析特征对各个的贡献度，怎么做？

传统的特征重要度衡量方法，就不介绍了。什么基于树模型的、SHAP值、LIME等。

但其实实际工程中一般还是使用Null Importance 特征贡献度。

1.1. Null Importance 特征贡献度

Null Importance 是一种基于置换检验（Permutation Test）的特征选择方法，用于评估特征的真实贡献度。通过比较真实特征重要性与随机噪声下的特征重要性，可以识别出对模型预测有实际贡献的特征。

1.1.1. Null Importance 的核心思想

Null Importance 的核心思想是通过以下步骤评估特征的重要性：

计算真实特征重要性：使用原始数据训练模型，并计算每个特征的重要性。
生成 Null Importance ：通过随机打乱（置换）目标变量 Y Y Y，破坏特征与目标变量之间的关系，然后重新训练模型并计算特征重要性。
比较真实重要性与 Null Importance：通过统计检验或阈值比较，筛选出显著高于 Null Importance 的特征。

1.1.2. 改进

上述方法还要计算特征重要性，但是在实际工程中，其实没法计算特征重要性。所以完全可以通过打乱

二、消偏工作：倾向分消偏、IPS、DR 和消偏塔

2.1. 倾向分消偏

倾向分消偏（Propensity Score Adjustment）主要用于处理样本之间的选择偏差。其基本思想是计算每个个体被选入某个处理组的概率（倾向分），然后在建模时使用倾向分进行调整，确保处理组和对照组在观察变量上尽可能相似。具体方法包括：

倾向分匹配（PSM, Propensity Score Matching）：找到匹配的个体，使得不同处理组之间的个体在倾向分上尽可能相似。
倾向分加权（IPW, Inverse Probability Weighting）：使用倾向分的倒数作为权重，在模型训练时重新加权样本，以减少偏差。
倾向分分层（Stratification）：将数据集按照倾向分分成若干层，每一层内部保证不同处理组的个体在倾向分上尽可能相似。

2.2. IPS 和 DR 消偏

IPS（Inverse Propensity Score）和 DR（Doubly Robust）是两种常见的消偏方法：

IPS（逆倾向评分加权）
- 公式：
  W i = T i P ( T i ∣ X i ) + ( 1 − T i ) 1 − P ( T i ∣ X i ) W_i = \frac{T_i}{P(T_i | X_i)} + \frac{(1 - T_i)}{1 - P(T_i | X_i)} Wi=P(Ti∣Xi)Ti+1−P(Ti∣Xi)(1−Ti)
- 其中， T i T_i Ti 是处理变量， P ( T i ∣ X i ) P(T_i | X_i) P(Ti∣Xi) 是倾向分。
- IPS 方法通过对样本进行加权，使不同组别的样本在统计上具有相似的分布。
DR（双重稳健方法）
- 结合了倾向分加权和回归模型，既能利用倾向分减少选择偏差，又能利用回归模型降低模型方差。
- 其核心是对 IPS 进行调整，使得即便倾向分模型不完全准确，回归模型也可以部分补偿偏差。

2.3. 消偏塔（De-biasing Tower）

消偏塔通常指的是一种分层消偏方法，通常涉及多个步骤：

原始数据层（Raw Data Layer）
- 收集所有原始特征数据，并进行预处理，如缺失值填充、标准化等。
倾向分计算层（Propensity Score Estimation Layer）
- 训练倾向分模型，如逻辑回归、梯度提升树（GBDT）或深度学习模型，计算每个样本的倾向分。
样本调整层（Reweighting Layer）
- 使用 IPS、PSM、DR 等方法进行样本加权或匹配，以调整数据分布，减少偏差。
建模层（Modeling Layer）
- 在消偏后的数据上训练目标模型，如分类、回归或推荐系统模型。
评估层（Evaluation Layer）
- 评估消偏效果，例如通过 ATE（Average Treatment Effect）、ATT（Average Treatment on Treated）等指标衡量偏差是否减少。

2.4. 总结

倾向分消偏 主要通过计算个体的倾向分来调整不同组别的样本，使其在统计上更加可比。
IPS 和 DR 消偏 提供了一种基于加权和双重稳健的方法来进一步减少偏差。
消偏塔 采用分层处理的方式，从原始数据到最终模型，逐步减少选择偏差，提升模型的稳健性。

三、介绍EFIN模型

使用显式特征的在线交互感知提升网络（EFIN）

上一篇：C++ 标准库：string 类、vector/List 容器与文件操作深度剖析

下一篇：comctl32!ListView_OnSetItem函数分析LISTSUBITEM结构中的image表示图标位置

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 05Linux下V2Ray安装配置指南 06jdk21下载、安装（Windows、Linux、macOS）07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）08npm使用国内淘宝镜像的方法 09PyCharm 社区版全平台安装指南 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南