数据仓库相关概念

目录

实时数仓和离线数仓

数仓分层

ETL(Extract-Transform-Load)

数仓指标

一些缩写


实时数仓和离线数仓

离线数仓和实时数仓主要的区别在于数据处理和更新的速度。

  1. 离线数仓:离线数仓通常处理的是历史数据,这些数据一般是批量处理,数据更新的频率相对较低,可能是每天或者每小时更新一次。离线数仓主要用于深度分析和挖掘数据,例如用户行为分析,商业智能等。

  2. 实时数仓:实时数仓处理的是实时或者近实时的数据,数据更新的频率非常高,可能是每秒甚至每毫秒更新一次。实时数仓主要用于实时业务监控,实时推荐,实时风控等场景。

总的来说,离线数仓和实时数仓的主要区别在于数据处理的实时性和数据更新的频率。

数仓分层

离线数仓和实时数仓的分层模型基本上是相同的,都会遵循一定的数据仓库架构,如ETL(Extract-Transform-Load)过程,以及数据的清洗、转换和加载等步骤。一般来说,数仓分层主要包括以下几个层次:

  1. 数据源层:这是数据仓库的数据来源,可以是各种业务系统,如CRM、ERP等。

  2. 数据抽取层:在这一层,数据被从数据源中抽取出来,进行初步的清洗和转换。

    这一层通常包括ODS(操作数据存储)、DWD(数据详细层)、DWS(数据汇总层)和ADS(应用数据存储)等子层。

    • ODS层:存储的是近乎原始的业务数据,数据更新频率较高。

    • DWD层:对ODS层的数据进行清洗、去重等操作,形成的明细数据。

    • DWS层:对DWD层的数据进行汇总,形成的汇总数据。

    • ADS层:根据业务需求,对DWS层的数据进行进一步汇总和计算,形成的应用数据。

  3. 数据存储层:这是数据仓库的核心部分,数据在这里被进一步清洗、转换和集成,然后存储起来。

  4. 数据展现层:在这一层,数据被组织和展现出来,以满足各种业务分析的需要。

  5. 数据应用层:这是数据仓库的最终用户,他们使用展现层的数据进行各种业务分析和决策。

不过在实时数仓中,由于其实时性的需求,可能会采用一些特殊的技术和工具,如流处理技术(例如Spark Streaming、Flink等),来实现数据的实时抽取、清洗、转换和加载。

ETL(Extract-Transform-Load)

ETL是Extract、Transform、Load的缩写,中文意思是"提取、转换、加载",是数据仓库中数据处理的重要过程。

  1. Extract(提取):这一步主要是从各种不同的数据源(如关系数据库、Excel文件、Web服务等)中提取数据。这些数据源可能具有不同的数据格式和结构。

  2. Transform(转换):这一步主要是对提取出来的数据进行清洗和转换,以满足数据仓库的需求。这可能包括数据的合并、分割、标准化、去重、错误纠正等操作。这部分通常是etl当中花费时间最长的部分

  3. Load(加载):这一步主要是将转换后的数据加载到数据仓库中。这通常需要考虑数据的一致性和完整性,以及加载过程的性能。

ETL过程是数据仓库建设和运营中的关键环节,对保证数据仓库的数据质量和使用效果具有重要影响。现在有很多专门的ETL工具,如Informatica、DataStage、Kettle等,可以帮助企业更高效地进行ETL过程。

数仓指标

数据仓库的指标主要是用来衡量和评估数据仓库的性能、效率和效果的。以下是一些常见的数据仓库指标:

  1. 数据质量:这是评估数据仓库的最重要的指标之一。数据质量包括数据的准确性、完整性、一致性、及时性等方面。数据质量高,才能保证数据分析的结果准确可靠。

  2. 数据更新频率:这是衡量数据仓库能否及时反映业务变化的一个重要指标。数据更新频率越高,数据仓库的数据就越能及时反映业务的最新状况。

  3. 查询效率:这是衡量数据仓库性能的一个重要指标。查询效率高,意味着用户可以快速获取到他们需要的数据,从而提高工作效率。

  4. 数据存储量:这是衡量数据仓库规模的一个重要指标。数据存储量大,意味着数据仓库可以存储和处理更多的数据。

  5. 数据覆盖率:这是衡量数据仓库能否满足业务需求的一个重要指标。数据覆盖率高,意味着数据仓库可以支持更多的业务需求。

  6. 用户满意度:这是衡量数据仓库服务质量的一个重要指标。用户满意度高,意味着数据仓库能够满足用户的需求,提供优质的服务。

以上就是一些常见的数据仓库指标,具体的指标可能会根据数据仓库的具体情况和业务需求有所不同。

一些缩写

ERP:Enterprise Resource Planning的缩写,中文名为企业资源规划,是一种集成的管理思想,通过信息技术手段,对企业内部的各种资源进行有效的整合和管理

CRM:Customer Relationship Management的缩写,中文名为客户关系管理,是一种通过理解和影响客户行为,以提高企业利润、提升客户满意度、增强客户忠诚度的管理理念和方法。

相关推荐
全栈派森15 小时前
BI数据开发全攻略:数据仓库、模型搭建与指标处理
数据仓库·python·程序人生
AI大数据智能洞察15 小时前
大数据领域数据仓库的备份恢复方案优化
大数据·数据仓库·ai
秦JaccLink15 小时前
Hive语句执行顺序详解
数据仓库·hive·hadoop
AI应用开发实战派15 小时前
大数据领域数据仓库的自动化测试实践
大数据·数据仓库·ai
AI算力网络与通信15 小时前
大数据领域 Hive 数据仓库搭建实战
大数据·数据仓库·hive·ai
Leo.yuan15 小时前
ODS 是什么?一文搞懂 ODS 与数据仓库区别
大数据·数据仓库·数据挖掘·数据分析·spark
boonya16 小时前
Apache Doris 大数据仓库全面解析
数据仓库·apache
isNotNullX19 小时前
ETL详解:从核心流程到典型应用场景
大数据·数据仓库·人工智能·架构·etl
SelectDB技术团队1 天前
岚图汽车 x Apache Doris : 海量车联网数据实时分析实践
数据仓库·人工智能·数据分析·汽车·apache
涤生大数据2 天前
从MR迁移到Spark3:数据倾斜与膨胀问题的实战优化
数据库·数据仓库·spark·mapreduce·大数据开发·数据倾斜·spark3