银行数仓项目实战(一)--什么是数据仓库

文章目录

数据仓库

数据仓库是一个面向主题的,集成的,非易失的且随时间变化的数据集合,用来支持管理人员的决策。

数据仓库是一个环境,而不是一个产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

特点

1.面向主题的:甲方所关心的业务条线,称之为主题。----面向需求

银行的主题:十大主题

重要的有产品主题,客户主题,协议主题,事件主题,财务主题...

2.集成的:将业务系统零散数据,根据甲方需求(主题)汇总加工,形成方便分析的业务明细表--业务宽表。

3.非易失的:即数据是稳定的。需要保证数据的完整性、准确性、及时性(离线T+1)(今天分析昨天的)

4.随时间变化的:动态的。

目的:

1.支持管理决策(可视化分析)

2.监管报送

3.数据集市(针对某一个主题进行深度分析OLAP,客户数据集市,营销数据集市,风险数据集市,财务数据集市...)


监管报送

监管报送的系统主要有?

1.数仓管理系统(Data Warehouse Management System,DWMS):用于管理银行数据仓库的建设,维护和运营,包括数据提取,清洗,转换,加载等功能。

2.数据质量管理系统(Data Quality Management System)

:用于确保报送数据的准确性,完整性和一致性,包括数据清洗,校验,修复等功能。

3.报送系统(Reporting System):用于生成并报送符合监管要求的数据报表,确保数据的及时交付和合规性。

4.监控系统(Monitoring System):用于监控数据仓库的运行状态、数据质量情况和报送进度,及时发现和解决问题。

5.安全管理系统(Security Management System):确保数据的安全性和机密性,在数据传输和存储过程中提供加密,权限控制等功能。

监管报送报送的数据

报送的数据通常有以下几类:

1.资产负债数据:如银行的资产情况、负债清空、净资产情况等。

2.交易数据:包括各类交易的明细数据,如存款,贷款,投资,交易结算等。

3.客户数据:涉及客户的身份信息,账户信息,交易行为等数据。

4.风险数据:包括市场风险,信用风险,操作风险等方面的数据。

5.合规数据:涉及银行在法律法规和监管要求下的合规情况数据。


OLTP和OLAP

当今的数据处理主要分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(on-line Analytical Processing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。


架构

下面是两种主要的架构

1.源数据:包括银行的各种自建系统,核心系统,信贷系统,ECIF(客户系统),中间业务等等...

2.ODS(Operational Data Store)层,即贴源层:操作型数据存储。是最靠近源数据的一层,用来对数据临时存放,打标签(时间戳,数据来源 为了方便溯源)。保持数据的原始性,完整性。

3.SDS标准层:统一数据类型、统一数据字典、数据清洗--清洗脏数据(如空值,特殊符号,重复值,不符合要求的数据)。

4.FDS (Fundational Data Store)基础层/模型层:最重要的一层,根据主题将源数据进行集成,加工,形成明细表--宽表

形成细粒度明细表。是面向主题的体现。

5.ADS(Analytical Data Store)分析层/指标层:根据需求,加工指标数据。将基础层数据加工计算,形成包括机构,客户,产品等各种数据。

6.应用层:可视化分析,监管报送,下游系统提供数据支持--数据集市

相关推荐
jianmin092018 小时前
Python高效数据分析从入门到实战的七个步骤
数据仓库
卡拉叽里呱啦2 天前
Apache Iceberg介绍、原理与性能优化
大数据·数据仓库
AI悦创|编程1v16 天前
00-1-正则表达式学习心得:从入门到上瘾,再到克制
数据仓库·正则表达式·数据挖掘·ai悦创编程一对一教学·python一对一辅导·python一对一教学
DashingGuy6 天前
数仓各层级设计总结
数据仓库
DashingGuy6 天前
从0-1建设数据仓库
数据仓库
数据要素X7 天前
【大数据实战】如何从0到1构建用户画像系统(案例+数据仓库+Airflow调度)
大数据·数据仓库·数据治理·数据中台
西岭千秋雪_8 天前
RAG核心特性:ETL
数据仓库·人工智能·spring boot·ai编程·etl
孟意昶9 天前
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
大数据·数据仓库·sql·ui·spark·etl
全栈派森9 天前
BI数据开发全攻略:数据仓库、模型搭建与指标处理
数据仓库·python·程序人生