数据仓库_维度表的两大分类

最近看一篇文章对维度表进行了分类,记录一下。

维度表主要分为两类高基数维度表和低基数维度表。

高基数维度数据

一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。

低基数维度数据

一般是配置表,比如枚举值对应的中文含义,或者日期维度,地理维度表等。数据量可能是个位数或者几千条几万条。

基数指的是一个字段中不同值的个数,比如主键列具有唯一值,所以具有最高的基数,而性别枚举值(日期,地区等)这样的列的基数就很低。

相关推荐
心疼你的一切5 小时前
三维创世:CANN加速的实时3D内容生成
数据仓库·深度学习·3d·aigc·cann
心疼你的一切6 小时前
药物发现革命:CANN加速的AI分子生成与优化系统
数据仓库·人工智能·深度学习·aigc·cann
Amber勇闯数分1 天前
【Hive】基于物品协同过滤 [ ItemCF ] 推荐课程-余弦相似度计算
大数据·数据仓库·hive·hadoop·矩阵
努力有什么不好1 天前
SparkSQL如何查询外部hive数据
数据仓库·hive·hadoop
市场部需要一个软件开发岗位3 天前
数据仓库相关内容分享
数据库·数据仓库·oracle
Gain_chance3 天前
32-学习笔记尚硅谷数仓搭建-DWD层首日数据装载脚本及每日数据装载脚本
大数据·数据仓库·hive·笔记·学习
Gain_chance3 天前
29-学习笔记尚硅谷数仓搭建-DWD层交易域下单事务事实表和交易域支付成功事务事实表
数据仓库·hive·笔记·学习·datagrip
Zilliz Planet3 天前
<span class=“js_title_inner“>Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?</span>
大数据·数据仓库·分布式·spark·etl
TTBIGDATA3 天前
【Ranger】Ambari开启Kerberos 后 ,Ranger 中 Hive 策略里,Resource lookup fail 线程池超时优化
大数据·数据仓库·hive·hadoop·ambari·hdp·ranger
沃达德软件4 天前
智慧警务技战法
大数据·数据仓库·hadoop·深度学习·机器学习·数据挖掘