银行数仓项目实战(一)--什么是数据仓库

文章目录

数据仓库

数据仓库是一个面向主题的,集成的,非易失的且随时间变化的数据集合,用来支持管理人员的决策。

数据仓库是一个环境,而不是一个产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

特点

1.面向主题的:甲方所关心的业务条线,称之为主题。----面向需求

银行的主题:十大主题

重要的有产品主题,客户主题,协议主题,事件主题,财务主题...

2.集成的:将业务系统零散数据,根据甲方需求(主题)汇总加工,形成方便分析的业务明细表--业务宽表。

3.非易失的:即数据是稳定的。需要保证数据的完整性、准确性、及时性(离线T+1)(今天分析昨天的)

4.随时间变化的:动态的。

目的:

1.支持管理决策(可视化分析)

2.监管报送

3.数据集市(针对某一个主题进行深度分析OLAP,客户数据集市,营销数据集市,风险数据集市,财务数据集市...)


监管报送

监管报送的系统主要有?

1.数仓管理系统(Data Warehouse Management System,DWMS):用于管理银行数据仓库的建设,维护和运营,包括数据提取,清洗,转换,加载等功能。

2.数据质量管理系统(Data Quality Management System)

:用于确保报送数据的准确性,完整性和一致性,包括数据清洗,校验,修复等功能。

3.报送系统(Reporting System):用于生成并报送符合监管要求的数据报表,确保数据的及时交付和合规性。

4.监控系统(Monitoring System):用于监控数据仓库的运行状态、数据质量情况和报送进度,及时发现和解决问题。

5.安全管理系统(Security Management System):确保数据的安全性和机密性,在数据传输和存储过程中提供加密,权限控制等功能。

监管报送报送的数据

报送的数据通常有以下几类:

1.资产负债数据:如银行的资产情况、负债清空、净资产情况等。

2.交易数据:包括各类交易的明细数据,如存款,贷款,投资,交易结算等。

3.客户数据:涉及客户的身份信息,账户信息,交易行为等数据。

4.风险数据:包括市场风险,信用风险,操作风险等方面的数据。

5.合规数据:涉及银行在法律法规和监管要求下的合规情况数据。


OLTP和OLAP

当今的数据处理主要分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(on-line Analytical Processing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。


架构

下面是两种主要的架构

1.源数据:包括银行的各种自建系统,核心系统,信贷系统,ECIF(客户系统),中间业务等等...

2.ODS(Operational Data Store)层,即贴源层:操作型数据存储。是最靠近源数据的一层,用来对数据临时存放,打标签(时间戳,数据来源 为了方便溯源)。保持数据的原始性,完整性。

3.SDS标准层:统一数据类型、统一数据字典、数据清洗--清洗脏数据(如空值,特殊符号,重复值,不符合要求的数据)。

4.FDS (Fundational Data Store)基础层/模型层:最重要的一层,根据主题将源数据进行集成,加工,形成明细表--宽表

形成细粒度明细表。是面向主题的体现。

5.ADS(Analytical Data Store)分析层/指标层:根据需求,加工指标数据。将基础层数据加工计算,形成包括机构,客户,产品等各种数据。

6.应用层:可视化分析,监管报送,下游系统提供数据支持--数据集市

相关推荐
RestCloud3 小时前
国产ETL数据集成软件和Informatica 相比如何
数据仓库·etl·数据集成工具·集成平台·informatica
RestCloud1 天前
产品更新丨谷云科技 iPaaS 集成平台 V7.5 版本发布
数据仓库·系统安全·api·数字化转型·ipaas·数据集成平台·集成平台
RestCloud1 天前
数据清洗(ETL/ELT)原理与工具选择指南:企业数字化转型的核心引擎
数据仓库·数据安全·etl·数据集成·elt·集成平台
wingaso1 天前
[经验总结]删除gitlab仓库分支报错:错误:无法推送一些引用到“http:”
linux·数据仓库·git
RestCloud2 天前
企业对数据集成工具的需求及 ETL 工具工作原理详解
数据仓库·系统安全·etl·数字化转型·数据集成平台·集成平台
朵朵zeng4 天前
ETL背景介绍_1:数据孤岛仓库的介绍
数据仓库·etl·原型模式
方二华4 天前
数据仓库:企业数据管理的核心引擎
数据仓库
IvanCodes4 天前
七、深入 Hive DDL:管理表、分区与洞察元数据
数据仓库·hive·hadoop
RestCloud4 天前
ETL 数据集成平台与数据仓库的关系及 ETL 工具推荐
数据仓库·etl·cdc·数据集成平台
yyf9601265 天前
hiveserver2与beeline进行远程连接hive配置及遇到的问题
数据仓库·hive