数据仓库·架构,建模(二)

数据仓库·架构,建模(二)

一、架构

1、ETL

从业务库抽取,交互转换,加载到目的端,数据仓库最关键的一环就是抽取数据,清洗,加载数据到预先定义的数据仓,ETL规则设计和实施占数据仓搭建工作量的60%~80%。

(1)抽取(Extrantion) :抽取的数据为结构化,半结构化和非结构化数据,结构化数据一般为jdbc,数据库日志,非结构化数据为监听文件变动。(抽取时一般在闲时,会影响数据库IO)

抽取方式为全量(初始化)和增量(新增变动)。

(2)转换(transformation)

  1. 一般清洗重复的,二义性的,不完整的,违反业务逻辑规则的(一般结构化数据处理很少,一般就去重,非结构化操作复杂)
  2. 对数据进行标准化处理,进行字段,类型,数据定义的转换。
    (3)数据加载(loading) :将处理完数据转入目标源
    (4)常用工具:
  • 结构化:Sqoop, Kettle, DataStage(付费),Information(付费),kafka
  • 半/非结构化:Flume, logstash

2、ODS(数据操作)

1、数据与原业务数据保持一致,可增加字段进行数据管理

2、存储数据,只读,提供业务查询

3、CMD(公共模型)

DWD:数据明细,对ODS数据清洗,标准化,维度化(时间,分类,地域),将某一类整合为一张宽表。

4、ADS(数据应用,也称为数据集市)

存储数据分析结果,为不同业务提供接口,减轻数据仓库负担。

二、建模。

OLAP:主要操作复杂查询,关注数据整合,分析和处理性能,根据存储数据不同分为:

  • ROLAP:关系型,存储系统一般为RDBMS
  • MOLAP:多维型,预先整合计算,使用多维数组形式保存,加快查询时间
  • HOLAP:混合型,ROLAP和MOLAP的集成,底层关系型,高层多维矩阵,效率高于ROLAP,低于MOLAP
相关推荐
juniperhan10 小时前
Flink 系列第4篇:Flink 时间系统与 Timer 定时器实战精讲
java·大数据·数据仓库·flink
juniperhan13 小时前
link 系列第7篇:Flink 状态管理全解析(原理+类型+存储+实操)
大数据·数据仓库·flink
juniperhan14 小时前
Flink 系列第6篇:Watermark 水印全解析(原理+实操+避坑)
大数据·数据仓库·flink
2501_933329551 天前
技术深度剖析:Infoseek 字节探索舆情处置系统的全链路架构与核心实现
大数据·数据仓库·人工智能·自然语言处理·架构
虚幻如影2 天前
Hive 中“STRING类型无需显式指定长度
数据仓库·hive·hadoop
荒川之神2 天前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
RestCloud2 天前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输
荒川之神2 天前
Oracle 数据仓库星座模型(Galaxy Model)设计原则
数据库·数据仓库·oracle
瀚高PG实验室2 天前
ETL中,分区表子表未及时收集统计信息,导致sql执行耗时很长
数据库·数据仓库·sql·etl·瀚高数据库
荒川之神2 天前
Oracle 数据仓库雪花模型设计原则(核心 + 落地 + Oracle 数据库适配)
数据库·数据仓库·oracle