数据仓库—数据仓库的特征

数据仓库的兴起正是源于企业日益增长的商业智能和决策分析需求。企业期望能够全面获取内外部的数据资源,洞见历史运营趋势,预测未来发展态势,从而制定前瞻性的经营策略。然而,分散的OLTP系统由于数据孤岛、格式不一致等问题,无法很好地满足这一需求。

因此,建立一个集成的、面向主题的、反映历史的企业级数据仓库就显得尤为重要。它可以将组织内外部的海量数据进行有效整合,为企业提供高质量的数据资源和强大的分析能力,支持商业智能、数据驱动决策等应用,助力企业的数字化转型和管理升级。

OLAP(在线分析处理)和OLTP(在线事务处理)

OLAP(在线分析处理)和OLTP(在线事务处理)是两种不同的数据处理系统,它们在设计目标、工作负载、数据模型等方面有着明显的区别:

OLTP(在线事务处理)系统:
  1. 目的: 支持日常业务运营,处理大量的基本事务查询和更新操作,如银行账户查询、购物订单等。
  2. 工作负载: 大量的短小事务,以插入、更新、删除为主。
  3. 数据模型: 基于高度规范化的关系模型,以避免数据冗余。
  4. 用户: 操作人员和终端用户。
  5. 数据视图: 支持细节性的、最新的数据视图。
  6. 性能要求: 快速事务响应和数据访问速度。
  7. 典型应用: 订单处理、银行账户管理、库存控制等。
OLAP(在线分析处理)系统:
  1. 目的: 支持决策分析,对整合的历史数据进行多维度分析。
  2. 工作负载: 复杂的分析查询,用于生成报表、数据挖掘等。
  3. 数据模型: 基于多维立方体模型,以支持多维分析。
  4. 用户: 分析人员、决策者。
  5. 数据视图: 支持从不同角度观察统计数据的聚合视图。
  6. 性能要求: 支持大量复杂查询和高吞吐量。
  7. 典型应用: 销售分析、财务分析、客户分析等商业智能应用。

数据仓库的特点

数据仓库与传统的操作数据库(OLTP)有着明显的区别,它具有以下几个主要特征

面向主题(Subject Oriented)

数据仓库按照特定的主题领域(如销售、财务、客户等)组织和存储数据,而不是按功能或应用程序分散存储。这种主题化的组织方式有利于进行跨系统、跨部门的数据分析和查询。

例如,在一家制造企业中,可以构建以"销售"、"生产"、"供应链"等为主题的数据模型,将原始运营数据按照主题域进行集成,支持各个业务主题上的分析需求。

集成的(Integrated)

数据仓库通过ETL(提取-转换-加载)过程,将来自于不同异构数据源系统的数据进行抽取、转换和集成,形成了统一的、一致的企业数据视图。它消除了分散系统中数据的不一致和冗余。

相对稳定的(Non-Volatile)

数据仓库中的数据是只读的,不会被更新、修改或删除。一旦数据加载进入数据仓库就变为静态和持久的了。新的数据会通过ETL过程不断导入,但原有数据保持不变。这确保了数据的完整性和一致性。

反映历史变化的(Time-Variant)

数据仓库不仅存储当前最新的数据快照,还包含了企业长期运营过程中积累的历史数据。这些历史数据反映了随着时间推移数据的变化情况,可用于分析过去的趋势、模式和异常。

为了满足长期保存和分析需求,数据仓库采用持久化的存储方式,如关系数据库、文件系统、数据湖等,而不是临时缓存。

总结

数据仓库的特征使得数据仓库成为面向分析决策的数据基础架构,与传统的面向交易处理的OLTP系统形成了明显区别和互补。数据仓库可以提供一个集中、一致、高质量的数据环境,满足企业的商业智能和分析需求。

总的来说,OLTP侧重于对详细操作数据的高效处理和持续更新,以满足日常业务运营需求;而OLAP则着眼于对集成的统计数据进行复杂分析,为企业决策提供支持。两者在设计理念和目标上存在着本质区别。

数据仓库正是为了支持OLAP分析而构建的一种专门的数据存储系统,它将OLTP系统的分散数据进行了主题化集成,为分析查询和数据挖掘提供了优化的环境。因此,数据仓库架构将OLTP和OLAP相分离,使它们各自发挥所长,相辅相成

相关推荐
Dragon online4 小时前
数据仓库深度探索系列:架构选择与体系构建
大数据·数据仓库·分布式·架构·spark·大数据架构·数仓架构
数据要素X4 小时前
【数据架构08】数字化转型架构篇
大数据·数据库·数据仓库·架构·数据库架构
陆水A2 天前
数仓主题域划分
大数据·数据仓库·数据库开发·etl·etl工程师
随心............2 天前
hive专题面试总结
数据仓库·hive
isNotNullX2 天前
主数据管理系统能代替数据中台吗?
大数据·数据仓库·人工智能·数据分析·etl
liliangcsdn5 天前
mac测试ollama llamaindex
数据仓库·人工智能·prompt·llama
晴天彩虹雨6 天前
统一调度与编排:构建自动化数据驱动平台
大数据·运维·数据仓库·自动化·big data·etl
Sirius Wu6 天前
Hive的窗口函数
数据仓库·hive·hadoop
isNotNullX7 天前
数据集成难在哪?制造企业该怎么做?
大数据·数据库·数据仓库·人工智能·制造
Sirius Wu8 天前
一文说清楚Hive
数据仓库·hive·hadoop·后端