银行数仓项目实战(一)--什么是数据仓库

文章目录

数据仓库

数据仓库是一个面向主题的,集成的,非易失的且随时间变化的数据集合,用来支持管理人员的决策。

数据仓库是一个环境,而不是一个产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

特点

1.面向主题的:甲方所关心的业务条线,称之为主题。----面向需求

银行的主题:十大主题

重要的有产品主题,客户主题,协议主题,事件主题,财务主题...

2.集成的:将业务系统零散数据,根据甲方需求(主题)汇总加工,形成方便分析的业务明细表--业务宽表。

3.非易失的:即数据是稳定的。需要保证数据的完整性、准确性、及时性(离线T+1)(今天分析昨天的)

4.随时间变化的:动态的。

目的:

1.支持管理决策(可视化分析)

2.监管报送

3.数据集市(针对某一个主题进行深度分析OLAP,客户数据集市,营销数据集市,风险数据集市,财务数据集市...)


监管报送

监管报送的系统主要有?

1.数仓管理系统(Data Warehouse Management System,DWMS):用于管理银行数据仓库的建设,维护和运营,包括数据提取,清洗,转换,加载等功能。

2.数据质量管理系统(Data Quality Management System)

:用于确保报送数据的准确性,完整性和一致性,包括数据清洗,校验,修复等功能。

3.报送系统(Reporting System):用于生成并报送符合监管要求的数据报表,确保数据的及时交付和合规性。

4.监控系统(Monitoring System):用于监控数据仓库的运行状态、数据质量情况和报送进度,及时发现和解决问题。

5.安全管理系统(Security Management System):确保数据的安全性和机密性,在数据传输和存储过程中提供加密,权限控制等功能。

监管报送报送的数据

报送的数据通常有以下几类:

1.资产负债数据:如银行的资产情况、负债清空、净资产情况等。

2.交易数据:包括各类交易的明细数据,如存款,贷款,投资,交易结算等。

3.客户数据:涉及客户的身份信息,账户信息,交易行为等数据。

4.风险数据:包括市场风险,信用风险,操作风险等方面的数据。

5.合规数据:涉及银行在法律法规和监管要求下的合规情况数据。


OLTP和OLAP

当今的数据处理主要分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(on-line Analytical Processing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。


架构

下面是两种主要的架构

1.源数据:包括银行的各种自建系统,核心系统,信贷系统,ECIF(客户系统),中间业务等等...

2.ODS(Operational Data Store)层,即贴源层:操作型数据存储。是最靠近源数据的一层,用来对数据临时存放,打标签(时间戳,数据来源 为了方便溯源)。保持数据的原始性,完整性。

3.SDS标准层:统一数据类型、统一数据字典、数据清洗--清洗脏数据(如空值,特殊符号,重复值,不符合要求的数据)。

4.FDS (Fundational Data Store)基础层/模型层:最重要的一层,根据主题将源数据进行集成,加工,形成明细表--宽表

形成细粒度明细表。是面向主题的体现。

5.ADS(Analytical Data Store)分析层/指标层:根据需求,加工指标数据。将基础层数据加工计算,形成包括机构,客户,产品等各种数据。

6.应用层:可视化分析,监管报送,下游系统提供数据支持--数据集市

相关推荐
SelectDB技术团队8 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
程序员小羊!10 小时前
数据仓库&OLTP&OLAP&维度讲解
数据仓库
RestCloud15 小时前
ETLCloud中的数据转化规则是什么意思?怎么执行
数据库·数据仓库·etl
老刘聊集成15 小时前
数据一致性校验:ETL保证信息准确无误的关键步骤
数据仓库·etl
苛子2 天前
iPaaS、ETL、数据集成平台是什么?三者是什么关系?
数据仓库·etl
喂完待续3 天前
【Tech Arch】Hive技术解析:大数据仓库的SQL桥梁
大数据·数据仓库·hive·hadoop·sql·apache
喂完待续3 天前
Apache Hudi:数据湖的实时革命
大数据·数据仓库·分布式·架构·apache·数据库架构
W.A委员会6 天前
SpringMVC
数据仓库·hive·hadoop·spring
TG_yunshuguoji7 天前
华为云数据仓库服务核心优势指南
数据仓库·云原生·华为云·数据库服务
典学长编程7 天前
JavaWeb从入门到精通!第二天!(Servlet)
数据仓库·servlet·javaweb