什么是数据仓库?

数据仓库:DATA WAREHOUSE,简称数仓、DW。是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境,为企业提供决策支持。

数仓本身不"产生"任何数据,其数据来源于不同的外部系统;同时数仓本身也不"消费"任何数据,其结果开放给各个外部应用使用,这也是为什么叫"仓库",而不叫"工厂"的原因。

数仓的四大特征:

**面向主题的:**较高层次的企业信息系统中数据的综合、归类并进行分析利用,对应企业中某一宏观分析领域的所涉及的分析对象

**集成的:**在确定主题之后,就需要获取和主题相关的数据,在企业中某一个主题相关的数据通常会分布在不同的操作系统中,彼此分散、独立、异构。因此,在数据进入数据仓库之前,必须要经过统一和综合,对数据进行抽取、清洗、转换和综合,这一步是数仓建设过程中最为复杂且重要的一步,要统一数据源中所有的矛盾之处,例如字段同名异义,异名同义,单位不一致,长度不一致等问题。

**包含历史的:**数据仓库中包含各种粒度的历史数据,数据可能与某个特定的日期、星期、月份、季度或者年份有关。数据仓库中的数据时限要远远长于操作性数据库的数据时限,操作性数据库存储的是当前数据,而数仓存储的是历史数据,数仓中的数据是按照时间顺序追加的,它们都带有时间属性。

**相对稳定的:**数仓是分析数据的平台而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是创造或者改变其中的规律,因此数据进入数仓后,便稳定且不会改变。操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据进行更新以便获取最新的业务数据,不至于影响正常的业务运作。数仓是保存过去的业务数据,不需要对每一笔业务实时更新,而是根据商业需求每隔一段时间把一批较新的数据导入数据仓库。数据仓库反映的是一段相当长的时间内的历史数据,是不同时间点数据库快照的集合,以及基于这些快照进行统计、综合以及重组的导出数据,数仓用户对数据的操作大多是数据查询或者比较复杂的挖掘,一旦数据进入数仓后,一般情况下会被长时间保留,数仓中一般有大量的查询操作,修改和删除的操作很少。

相关推荐
Volunteer Technology1 小时前
Flink的 Side Output侧输出和 ProcessFunction
大数据·flink
roman_日积跬步-终至千里1 小时前
【SDD】高风险场景下的 SDD 最佳实践:分层风控+分级落地,约束AI编程边界
大数据·人工智能·ai编程
计算机安禾1 小时前
【算法分析与设计】第36篇:计算几何基础:凸包问题的分治与扫描线解法
大数据·人工智能·算法·机器学习·剪枝
人员安全定位1 小时前
喜报!品铂科技获2025年度电力建设科学技术进步奖
大数据·人工智能·科技
AI智图坊1 小时前
拒绝模板同质化:拆解自由生图功能,如何通过GPT-Image-2与Nano Banana Pro双模型驱动电商AIGC?
大数据·人工智能·gpt·ai作画·aigc
AI_yangxi2 小时前
短视频矩阵系统服务商
大数据·人工智能·矩阵
硅谷秋水3 小时前
SkillOpt:自演化智体技能的执行策略
大数据·人工智能·深度学习·机器学习·语言模型
智慧景区与市集主理人3 小时前
传统农场的数字化蝶变:马山百里度假区全域智慧化升级,重构乡村文旅运营逻辑
大数据·人工智能
名不经传的养虾人4 小时前
从0到1:企业级AI项目迭代日记 Vol.38|能演示的系统,和能日常用的系统,差的是这五件事
大数据·人工智能·ai编程·企业ai·多agent协作
小小王app小程序开发4 小时前
陪诊小程序开发功能深度分析:功能架构、业务逻辑与落地要点
大数据·架构