引言
打Kaggle比赛的时候,最重要的步骤就是进行特征工程,筛选出有用特征,已有的一些算法,比如随机森林/xgboost/lightgbm等,能在模型构建过程中自动计算出特征重要性。但它并不具有统计学意义:高基数特征/连续性特征的重要性会天生的高于离散性特征。因此,仅凭ACS得分不足以识别出对模型预测有实际贡献的特征。
目前已经有很多基于统计学的特征重要性计算方法,包括简单的置换重要性测试(Permutation Importance, Perm),还有Boruta、递归相关变量重要性(recurrent relative variable importance, r2VIM)和Vita等。
根据已有的综述论文给出的结论:
在上述算法中,Boruta和Vita算法在处理高维数据时稳定性最强。这表明它们特别适合于分析那些变量众多的复杂数据集。尽管Vita在计算速度上明显快于Boruta,使其更适合处理大型数据集,但Boruta算法也有其独到之处,特别是它还能适用于那些特征相对较少的低维数据环境。
核心思想
既然已经有这么多特征筛选算法,为什么还需要Boruta呢?
Boruta与已有方法在进行特征选择时的目标导向是有区别的:
- Boruta进行特征选择的目标是: 筛选出所有与因变量具有相关性的特征集合。
- 通常意义上在机器学习实践过程中进行特征选择的目标是: 筛选出可以使得当前模型loss function最小的特征集合。
通常我们进行特征选择的时候基于如下2个规则:
- 如果删掉某维特征后重新训练模型,导致模型性能下降,则认为该特征很重要;
- 如果删掉某维特征后重新训练模型,模型性能没有变化,则认为该特征不重要;
而问题就出在第二条规则上了,去除特征后模型性能不变,只能说明该特征不会使得loss减小,但该特征仍有可能是和数据标签高度相关的!Boruta算法的意义在于可以帮助我们更全面的寻找因变量的影响因素。
Boruta算法流程
Boruta
算法可以识别所有对分类或回归有显著贡献的变量。其核心思想是统计比较数据中真实存在的特征变量与随机加入的变量(也称为影子变量)的重要性。
- 初次建模时,把原始变量拷贝一份作为影子变量。
- 原始变量的值随机化后作为对应影子变量的值 (随机化就是打乱原始变量值的顺序)。
- 将两份变量拼接在一起,使用随机森林建模并计算每个变量的重要性得分。
- 对于每一个真实特征变量,统计检验其与所有影子变量的重要性最大值的差别。即计算真实特征和影子特征的 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z s c o r e Z_{score} </math>Zscore。
- 计算影子特征中 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z s c o r e Z_{score} </math>Zscore的最大值记为 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z m a x Z_{max} </math>Zmax,将 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z s c o r e Z_{score} </math>Zscore 高于 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z m a x Z_{max} </math>Zmax 的真实特征变量定义为 重要 。 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z s c o r e Z_{score} </math>Zscore 低于 <math xmlns="http://www.w3.org/1998/Math/MathML"> Z m a x Z_{max} </math>Zmax 的真实特征变量定义为 不重要。
- 删除所有不重要的变量和影子变量。
- 将剩余变量构成的数据集再次重复刚才的建模和选择过程,直到所有变量都被分类为 重要 或 不重要 ,或达到预先设置的迭代次数。
重要性识别部分的python代码如下所示:
python
def get_important_features(X, y):# Initiliaze Random Forest CLassifier
rf = RandomForestClassifier(max_depth=20)# Fit Random Forest on provided data
rf.fit(X,y)# Create dictionary of feature importances
importances = {feature_name: f_importance for feature_name, f_importance in zip(X.columns, rf.feature_importances_)}# Isolate importances of Shadow features
only_shadow_feat_importance = {key:value for key,value in importances.items() if "shadow" in key}# get importance level of most important shadow feature
highest_shadow_feature = list(dict(sorted(only_shadow_feat_importance.items(), key=lambda item: item[1], reverse=True)).values())[0]# get original feature which fulfill boruta selection criteria
selected_features = [key for key, value in importances.items() if value > highest_shadow_feature]return selected_features
优点
- 同时适用于分类问题和回归问题
- 考虑多个变量的关系信息
- 会输出所有与模型性能相关的变量,而不是只返回一个最小变量集合
- 可以识别出变量的相互作用
- 可以规避随机森林自身计算变量重要性的随机波动性问题和不能计算显著性的问题