数据挖掘--数据仓库与联机分析处理

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


什么是数据仓库

(面集时非)

  • 面向主题的:围绕某一主题来构建
  • 集成的:图片文字杂糅在一起
  • 时变的:随时间变化的数据
  • 非易失的:硬盘存放,不易丢失

操作数据库系统(OLTP)与数据仓库(OLAP)区别

(用户、设计、访问、视图、内容)

  • 用户和系统的面向性:OLTP是面向顾客,OLAP是面向市场进行数据分析
  • 数据内容:OLTP提供当前数据,OLAP提供历史数据
  • 数据库设计:OLTP采用实体-联系(ER),OLAP采用星形或雪花
  • 视图:OLTP一个具体部门,OLAP全部统计
  • 访问模式:OLTP某条,OLAP全部

为什么需要分离的数据仓库

  • 有助于提高两个系统的性能
  • 两种系统中数据的结构、内容和用法都不相同

星形、雪花形和事实星座

星形(一对多)、雪花(有二级)、事实星座(交叉)

1.星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:

2.雪花模式是星型模式的扩展,其中某些维表被规范化,进一步分解到附加表(维表)中。雪花模式示例如下图所示:

从图中我们可以看到地址表被进一步细分出了城市(city)维。supplier_type表被进一步细分出来supplier维。

3.事实星座模式(Fact Constellation)或星系模式(galaxy schema)

数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式。本模式示例如下图所示。

度量的分类和计算

  • 分布的:划分与不划分的数据集的结果一样
  • 代数的:由几次的分布式函数通过加减乘除的计算得到
  • 整体的:对整个数据集进行操作的(如rank)

索引OLAP数据

位图索引

有n的属性改成n列,有这个属性就是1,没有就是0

连接索引

通过一列相同的字段连接

相关推荐
RestCloud9 小时前
从架构师视角看ETL工具选型:如何构建可演进的数据集成平台
数据仓库·etl·cdc·数据处理·数据传输·elt
zxsz_com_cn11 小时前
工厂中需要预测性维护的关键设备
人工智能·数据挖掘
汽车仪器仪表相关领域14 小时前
Kvaser Hybrid CAN/LIN 单通道三合一总线分析仪:高性价比CAN FD/LIN集成测试利器
运维·服务器·网络·数据挖掘·数据分析·单元测试·集成测试
KaMeidebaby17 小时前
卡梅德生物技术快报|基因测序技术在 46,XY 性发育障碍变异筛查中的流程与数据分析
服务器·前端·数据库·人工智能·算法·数据挖掘·数据分析
罗小罗同学18 小时前
Nat Med发表SPARK智能体框架,可以自主思考、提出假设、设计实验并验证结果,让AI也能主动发现肿瘤生物学规律
大数据·人工智能·spark·医学图像处理
卷毛迷你猪19 小时前
快速实验篇(A4)Hive 数据仓库进阶:全站点干旱事件识别与多维统计分析
数据仓库·hive·hadoop·分布式
帅次20 小时前
AI数字营销实战测评:CSDN AI智选主题如何提升技术博客创作效率与质量?
人工智能·深度学习·机器学习·语言模型·自然语言处理·数据挖掘·知识图谱
冰上浮云20 小时前
Gravitino iceberg catalog backend 为hive 获取元数据过程
数据仓库·hive·hadoop·gravitino
段一凡-华北理工大学20 小时前
工业领域的Hadoop架构学习~系列文章06:Hive数据仓库
数据仓库·hadoop·架构·高炉炼铁·工业智能体·高炉智能化·hive数据仓库
zgl_200537791 天前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理