数据仓库的流程

数据仓库完全用统计分析框架实现:Spark,MR

但是因为实际生产环境中,需求量非常大,

如果每个需求都采用独立c代码开发方式,重复计算会很多.

提高性能的方法: 1.减少数据量 2. 减少重复计算

例如RDD

cache 可以减少重复计算,但是不安全,都在缓存中,

persist 都放内存中,但是慢

而数仓是通过表来保存数据,从而达到减少重复计算的操作.

1.数据仓库的模块流程

1.数据源ODS(Operate Data Store)

1.作用: 汇总数据,为统计分析做准备

2.特点(能不改就不改)

1.行式存储

不需要进行统计分析,所以尽量不改变存储格式,因为修改数据格式需要消耗大量资源.,

2.数据格式

尽量不改变数据格式,消耗资源,影响性能.

JSON,TSV

但是如果必须要修改,就是异构数据的融合,

2.数据加工(Data Warehouse detail)

1.作用

为统计分析做准备

2.什么意思?

对数据的加工如过滤,无效数据筛选,

3.统计(DWS ->Data Warehouse Summary)

1.作用

对加工后的数据进行统计

4.分析(ADS->Application Data Service)

应用程序数据服务

1.作用

分析后的结构是整个数仓的最终结果,最后需要对外提供服务,例如:可视化界面图像.

5.DIM层(Common)

1.什么是维度(Dimension)

看事物的角度

2.层级之间的思考?

每一层执行完,再执行下一层,确保不会出现回环

2.如何控制SQL的执行

通过SQL和任务调度器,由任务调度器来完成调度工作.

相关推荐
言德斐6 小时前
SQL性能优化的思路及策略
数据库·sql·性能优化
码界奇点6 小时前
Django视图从基础到高级的全面解析
数据库·django·sqlite·web·python3.11
Allan_20256 小时前
数据库学习
数据库·学习
fen_fen6 小时前
人大金仓数据库kingbase8创建表示例
数据库·oracle
一勺菠萝丶6 小时前
「您的连接不是私密连接」详解:为什么 HTTPS 证书会报错,以及如何正确配置子域名证书
数据库·网络协议·https
²º²²এ松7 小时前
蓝牙低功耗(BLE)通信的中心设备/外围设备(连接角色)、主机/从机(时序角色)、客户端/服务器(数据交互角色)的理解
运维·服务器·数据库
百锦再7 小时前
Vue Scoped样式混淆问题详解与解决方案
java·前端·javascript·数据库·vue.js·学习·.net
数据库知识分享者小北7 小时前
云栖重磅|瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
数据库·人工智能·云原生
_Johnny_7 小时前
Redis 升级操作指南:单机与主从模式
数据库·redis·缓存
源力祁老师8 小时前
ODOO数据文件(XML、CSV、SQL)是如何转换并加载到 Odoo 数据库
xml·数据库·sql