技术栈

高基数

华为云开发者联盟
7 个月前
clickhouse·时序数据库·高基数·opengemini
华为云开源时序数据库openGemini:使用列存引擎解决时序高基数问题本文来源:《华为云DTSE》第五期开源专刊,作者:向宇,华为云数据库高级研发工程师、黄飞腾,博士,openGemini存储引擎架构师
京东云技术团队
2 年前
机器学习·高基数·平均数编码
高基数类别特征预处理:平均数编码 | 京东云技术团队对于一个类别特征,如果这个特征的取值非常多,则称它为高基数(high-cardinality)类别特征。在深度学习场景中,对于类别特征我们一般采用Embedding的方式,通过预训练或直接训练的方式将类别特征值编码成向量。在经典机器学习场景中,对于有序类别特征,我们可以使用LabelEncoder进行编码处理,对于低基数无序类别特征(在lightgbm中,默认取值个数小于等于4的类别特征),可以采用OneHotEncoder的方式进行编码,但是对于高基数无序类别特征,若直接采用OneHotEncoder的