银行数仓项目实战(一)--什么是数据仓库

文章目录

数据仓库

数据仓库是一个面向主题的,集成的,非易失的且随时间变化的数据集合,用来支持管理人员的决策。

数据仓库是一个环境,而不是一个产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或者不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

特点

1.面向主题的:甲方所关心的业务条线,称之为主题。----面向需求

银行的主题:十大主题

重要的有产品主题,客户主题,协议主题,事件主题,财务主题...

2.集成的:将业务系统零散数据,根据甲方需求(主题)汇总加工,形成方便分析的业务明细表--业务宽表。

3.非易失的:即数据是稳定的。需要保证数据的完整性、准确性、及时性(离线T+1)(今天分析昨天的)

4.随时间变化的:动态的。

目的:

1.支持管理决策(可视化分析)

2.监管报送

3.数据集市(针对某一个主题进行深度分析OLAP,客户数据集市,营销数据集市,风险数据集市,财务数据集市...)


监管报送

监管报送的系统主要有?

1.数仓管理系统(Data Warehouse Management System,DWMS):用于管理银行数据仓库的建设,维护和运营,包括数据提取,清洗,转换,加载等功能。

2.数据质量管理系统(Data Quality Management System)

:用于确保报送数据的准确性,完整性和一致性,包括数据清洗,校验,修复等功能。

3.报送系统(Reporting System):用于生成并报送符合监管要求的数据报表,确保数据的及时交付和合规性。

4.监控系统(Monitoring System):用于监控数据仓库的运行状态、数据质量情况和报送进度,及时发现和解决问题。

5.安全管理系统(Security Management System):确保数据的安全性和机密性,在数据传输和存储过程中提供加密,权限控制等功能。

监管报送报送的数据

报送的数据通常有以下几类:

1.资产负债数据:如银行的资产情况、负债清空、净资产情况等。

2.交易数据:包括各类交易的明细数据,如存款,贷款,投资,交易结算等。

3.客户数据:涉及客户的身份信息,账户信息,交易行为等数据。

4.风险数据:包括市场风险,信用风险,操作风险等方面的数据。

5.合规数据:涉及银行在法律法规和监管要求下的合规情况数据。


OLTP和OLAP

当今的数据处理主要分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(on-line Analytical Processing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行交易。

OLAP是数据仓库系统的主要应用。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。


架构

下面是两种主要的架构

1.源数据:包括银行的各种自建系统,核心系统,信贷系统,ECIF(客户系统),中间业务等等...

2.ODS(Operational Data Store)层,即贴源层:操作型数据存储。是最靠近源数据的一层,用来对数据临时存放,打标签(时间戳,数据来源 为了方便溯源)。保持数据的原始性,完整性。

3.SDS标准层:统一数据类型、统一数据字典、数据清洗--清洗脏数据(如空值,特殊符号,重复值,不符合要求的数据)。

4.FDS (Fundational Data Store)基础层/模型层:最重要的一层,根据主题将源数据进行集成,加工,形成明细表--宽表

形成细粒度明细表。是面向主题的体现。

5.ADS(Analytical Data Store)分析层/指标层:根据需求,加工指标数据。将基础层数据加工计算,形成包括机构,客户,产品等各种数据。

6.应用层:可视化分析,监管报送,下游系统提供数据支持--数据集市

相关推荐
冬至喵喵2 小时前
【hive】函数集锦:窗口函数、列转行、日期函数
大数据·数据仓库·hive·hadoop
workflower21 小时前
以光量子为例,详解量子获取方式
数据仓库·人工智能·软件工程·需求分析·量子计算·软件需求
weixin_4723394621 小时前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
SelectDB技术团队2 天前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
Leo.yuan2 天前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化
workflower2 天前
量子比特实现方式
数据仓库·服务发现·需求分析·量子计算·软件需求
青春之我_XP3 天前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
Leo.yuan3 天前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
涤生大数据4 天前
Apache Doris 在数据仓库中的作用与应用实践
数据仓库·apache·doris
IT成长日记5 天前
【Doris基础】Apache Doris vs 传统数据仓库:架构与性能的全面对比
数据仓库·架构·doris·doris vs 传统数据仓库