【数据仓库工具箱】DW/BI系统的核心元素和基本要求

核心元素

DW/BI 环境划分为4个不同的,各具特色的组成部分。分别是:操作型源数据,ETL系统,数据展现和商业智能应用。

操作型源数据 记录的是操作型系统,用于获取业务事务。源数据关注的是处理性能和可用性。源系统一般不维护历史信息,而这部分责任可以依靠好的数据仓库来实现。

数据获取-转换-加载 ETL系统 是处于操作型系统和数据展现区之间的部分,1. 获取是将数据从操纵型系统中导入数据仓库中,2. 数据转换,elt系统通过数据清洗/合并来自不同数据源的数据/复制数据等,增强数据价值,3.数据加载,实际构建和加载数据到展现区域的目标维度模型中。elt 过程的主要任务是识别维度和事实,因此其包含的子系统非常重要。

设计目标:吞吐率、完整性和一致性。

⚠️规划化结构难以同时满足可理解性和性能两个目标。
‼️ELT需要关注数据质量,一致性和完整性。

展现区 我们认为数据应该以维度模型来展现,星型模型或olap多维数据库。

⚠️处于DW/BI系统的可查询的展现区必须是维度化的,原子的(辅以增强性能的聚集),以业务为中心的。坚持使用总线矩阵结构的数据库,不应该是按照个别部门需要的数据来构建。

设计目标:方便实用、查询性能

商业智能BI 比如报表或者随意查询等等。

将DW/BI系统与餐厅类比

ETL系统与餐厅后厨

布置要高效,尽量减少时间运转

一致性:调味酱要提前做好,菜品的质量也要一致

厨房的输出要有一定的完整性

处于前端用餐区的数据展现和BI --- 交付的产品是展现区的数据

菜单:通过元数据/数据报表和参数化分析应用告诉用户什么数据可用。DW/BI 的用户希望获得一致的,良好的数据质量。

服务:发布的数据要满足需求,快速提供给业务用户和开发人员。

DW/BI 的基本需求

  1. 方便存取,及时访问和数据获取。
  2. 数据正确。
  3. 数据可用。
  4. DW 支持决策。
相关推荐
心止水j9 小时前
hive分区
数据仓库·hive·hadoop
心止水j9 小时前
Hive 桶表的创建、数据导入、查询与导出
数据仓库·hive·hadoop
hexionly3 天前
数据仓库·架构,建模(二)
数据仓库
干就完事了5 天前
Hive视图
数据仓库·hive·hadoop
A尘埃5 天前
Hive基于Hadoop的数据仓库工具
数据仓库·hive·hadoop
杂家6 天前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark
智海观潮7 天前
Hive经典面试题之连续登录、行转列和列转行
数据仓库·hive·hadoop
泰克教育官方账号7 天前
泰涨知识 | 10分钟快速入门Hive之基本操作篇
数据仓库·hive·hadoop
Dragon online8 天前
数据仓库深度探索系列:数仓建设全流程解析
数据仓库
isNotNullX8 天前
数据中台有什么用?数据仓库和数据中台怎么选?
大数据·数据仓库·人工智能·数据中台