技术栈
alink
又见阿郎
1 年前
特征工程
·
alink
聊聊基于Alink库的特征工程方法
示例代码及相关内容来源于《Alink权威指南(Java版)》OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。 对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。 每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。
又见阿郎
1 年前
主成分分析
·
alink
聊聊基于Alink库的主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维和特征提取技术,用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为一组新的互相无关的变量,这些新变量称为主成分,它们按照方差递减的顺序排列,以保留尽可能多的原始数据信息。 主成分分析的基本思想可以总结如下:
又见阿郎
1 年前
随机森林
·
alink
聊聊基于Alink库的随机森林模型
随机森林(Random Forest)是一种集成学习(Ensemble Learning)方法,通过构建多个决策树并汇总其预测结果来完成分类或回归任务。每棵决策树的构建过程中都引入了随机性,包括数据采样和特征选择的随机性。 随机森林的基本原理可以概括如下: