第十一章数据仓库和商务智能 10分

11.1.0语境关系图

11.1 Q 建立数据仓库，有哪些步骤？如何建设？【6 个步骤非常重要！必须知道】

1. 理解需求（P）（目的明确，ETL）

(1) 考虑业务目标和业务战略。
(2) 确定业务领域并框定范围。
(3) 访谈，了解业务人员需求，问题及访问的数据。
(4) 掌握关键指标和计算口径。

2. 定义和维护 DW 和 BI 架构（P）

(1) 确定数据仓库/商务智能技术架构。
(2) 确定数据仓库/商务智能管理流程。

3. 开发数据仓库和数据集市（D）【建立表】

(1) 建立源到目标的映射关系。
(2) 修正和转换数据。

4. 加载数据仓库（D）

== (1) 工作量最大的部分。

(2) 延迟要求【时延决定了数据加载方法，实时加载/CDC/流数据加载】、源可用性、批处理时间窗口。

(3) 数据质量问题。==

5. 实施 BI 产品组合（D）【多给几个产品，自己编程、PowerBI、Rapidminer等】

== (1) 根据需要对用户进行分组。

(2) 将工具与用户要求匹配。==

6. 维护数据产品（O）

(1) 发布管理。
(2) 管理数据产品开发生命周期。
(3) 监控和调优加载过程。
(4) 监控和调优商务智能活动和性能。

11.2 OLAP&OLTP 差别【可能会考】

Q1：OLAP 和 OLTP 差别有哪些？【多选题】
A1：OLTP 用于日常交易处理，OLAP 用于查询、分析、决策；
OLTP 用于简单小事务，操作少量数据，OLAP 用于复杂查询、大量数据；
OLTP 数据一般为当前最新数据（实时），数据规模 GB，OLAP 一般为历史数据（批量），数据规模 TB-PB；
OLTP 一般满足三范式，OLAP 一般逆规范化，反范式，星型模型；
OLTP 用户一般为操作人员、低层管理人员，OLAP 一般为决策人员，高级管理人员；
OLTP 的 DB 设计为面向应用，OLAP 设计为面向主题；OLTP 软件技术为数据库，OLAP 软件技术为数据仓库。

Q2：index 索引（快速搜索）用在 OLAP 还是 OLTP？
A2：OLAP。

Q3：逆规范化，用在 OLAP 还是 OLTP？
A3：OLAP，OLTP 应满足 3NF。

用作 OLAP 的软件：Netezza，Hadoop，Hiva（开源，不建议用，性能很慢）。

三种经典的 OLAP 实现方法

1）关系型联机分析处理（ROLAP）。

ROLAP 通过在在关系数据库（RDBMS）的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术。

2）多维矩阵型联机分析处理（MOLAP）。

MOLAP 通过使用专门的多维数据库技术支持 OLAP。【数据量有限制，现在用的不多】。

3）混合型联机分析处理（HOLAP）。

ROLAP 和 MOLAP 的结合。HOLAP实现允许部分数据以 MOLAP 形式存储，而另一部分数据存储在ROLAP中。控件的实现方式各不相同，设计师对分区的组合也各有不同。

11.3 F2 数仓的主要组件有哪些？【主要 3 个】'

数据仓库 ：是一个由 源系统、数据集成 ETL 加载、数据存储区域 （必须：中央数据仓库，可选：ODS、立方体、数据集市、主数据、暂存区）等众多组件组成的数据管理系统。

11.4 商务智能

商务智能是一套完整的数据解决方案，旨在用来将企业中现有的数据进行有效的整合，快速提供的提供报表并提出决策依据，帮助企业做出明智的业务经营决策的一系列分析活动和技术应用，常见的应用包括统计分析、仪表盘、数据大屏等 。
（以业务人员用数需求为中心：固定报表、指标多维查询分析、明细数据、管理层决策仪表盘、移动端可视化应用、数据挖掘模型应用、数据模板）。
Q：商务智能与数仓、大数据区别？
A：商务智能 BI 主要用作前端分析展现（统计分析、仪表盘、数据大屏）（powerBI）。
数仓是后台，主要用于管理后端数据（hive），数据仓库与商务智能不一样，数据仓库强调 BI。
大数据强调 AI。

涉及银行金融机构：客户领域、风控领域、运营领域。

新客户获取模型、客户交叉营销模型、客户细分明细模型、客户激活模型、客户价值提升模型、客户维挽模型、支付路径优化模型、客户经营能力分析模型、内部审计模型、客户信用风险预警模型、贷款控制点分析、盈利能力预测模型、网点选址模型。

11.5 F1Inmon 和 Kimball 关于数仓的差别有哪些？

Inmon（数据仓库之父）关系型，Kimball 多维性。
企业信息工厂（Bill Inmon） ：企业信息工厂是两种主要的数据仓库建设模式之一，是面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。
多维数据仓库（Ralph Kimball） ：多维数据仓库是数据仓库开发的另一个主要模式，仓库数据存储在多维数据模型中，以维度和事实定义。

常见模型包括星型和雪花型等。

Q1：张三，2021 年，上海，卖出多少车，维度和指标？（多维模型）

A1：4 个维度（员工张三，时间 2021 年，地点上海，产品汽车），1 个指标（多少辆）。

Kimball 图更清晰（组件及组件之间的关系，需要了解血缘关系）。注意 kimball 图中，右侧数据访问工具至数据展示区的访问箭头，数据访问工具中区分 BI 和 AI，

BI：即席查询、报表撰写、分析型应用；

AI：模型预测、打分、数据挖掘。

考试暂时不用管上面 2 个图。

11.6 F4&Q 数仓、数据湖、数据中台的相同点和不同点有哪些？【重要】

数仓： 结构化数据进入数仓、ETL、业务场景是明确的，交付物对已经发生的事情的总结或展现，侧重 BI；（但也可以做 AI）国内企业100%。
数据湖： 结构化数据+非结构化数据进入数据湖，ELT，业务场景是不一定明确的，交付物对未知的预测或挖掘，侧重 AI；（也可以做BI）国内企业40%。
数据中台： 建设在数仓、数据湖之上，更多的是打标签、归类等工作，平台层数据在数仓、数据湖中，在此基础上，建设数据中台【阿里巴巴图是关键】）国内企业 20%。

关系：数据仓库构建了企业级的数据模型，大数据平台在此基础上进行拓展，解决了海量、实时数据的计算和存储问题，而数据中台则是将数据服务化后提供给业务系统，目标是将数据能力渗透到各个业务环节。

上图为阿里巴巴示范图，从下往上（国外示范图习惯从左往右）。

数据源→采集与转化→平台层→数据中台。

sql 复制代码

Q1：采集与转化中，由哪几部分构成？
A1：一般由 4 部分构成，
1）结构化数据采集 ETL+ESB；
2）非结构化数据采集File；
3）实时数据采集 Kafka+ws；
4）流数据（无法进入数仓，需要在数据湖中处理）。

Q2：阿里巴巴认为的平台层有哪些？
A2：3+1 数据仓库、大数据平台（所谓的数据湖）、实时数据处理、数据实验室（不上生产系统，做 POC）。

平台层之上为数据中台（阿里巴巴创造名称，上图中绿色部分）：主要为指标、标签等工作，如精准营销、业务分析、智能客服、客户洞察、产品洞察、行业洞察、智能运营、风险监控、财务分析、大数据运维、数据可视化、数据共享、标签库、离线分析、在线分析、海量检索、机器学习、NLP 自然语言处理、计算机视觉、知识图谱/关系图谱。

11.7 F5 数仓和数据湖的架构图【最有可能画设计图，数仓、数据湖、数据中台，非常重要！】

数据通过源运营系统进入集结区域，可直接到 ODS，也可以进入中心仓库。注意 ODS 双向箭头中心仓库，ODS 不是进入数仓的必备环节，而是与数仓平级（阿里巴巴图是不正确的，ODS 不是贴源层）。最下方 DW 也可以进数据湖。

右侧上方影响报告为 BI，下方比较、评估、预测、学习为 AI。

目前 BI 软件不能用作 AI 分析，但 AI 软件（Rapidminer）部分可用作BI。

阿里巴巴图：

Iso：组件、组件之间的关系、设计原则。

php 复制代码

Q2：已经有数仓的情况下，为什么还要建设数据湖？
A2：判断业务场景，客服中心接电话，由经理监听电话判断是否认真工作，现在有音频要求，但目前数仓无法处理音频，所以需要建设数据湖，如果有大量非结构化数据需要处理，建立数据湖。

11.8 ETL 和 ELT 区别【面试会问】

ETL：目标数据仓库。
ELT：目标数据湖。

11.9 F3 数据分析的自助服务是什么？（PPTP85）

Dataselfservice 低代码软件（无需编程）：PowerBI 出BI 报告，Rapidminer（人工智能）做预测及挖掘。

根据用户权限提供各种功能。

按照标准计划推送给用户。

提供自助服务。通过门户执行报表取数。

以业务为中心构建仪表板。

11.10 F6 数仓的一些疑难问题，比如 SCD、星型和雪花模型的融合等？

Q1：SCD 如何解决？【参考第 5 章】
A1：渐变类维度 slow changing dimensions
1.覆盖 Overwrite，新值覆盖旧值。
2.新行 New Row，新值写在新行中，旧行被标记为非当前值。
3.新列 New Column，一个值的多个实例列在同一行的不同列中，而一个新值意味着将系列中的值向下一点写入，以便在前面为新值流出空间。最后一个值被丢弃。

sql 复制代码

Q2：星型和雪花模型
A2：星型没有层级（日期维度），雪花模型有层级关系（如日期→月→季→年）。
Q3：CDC change Data capture 增量抽取方法【可能会考选择题】
A3：4 种 CDC 方法（时间戳增量加载、日志表增量加载、数据库交易日志、消息增量），数据量最大的 CDC 是全量加载。

11.11 F7 指标体系

数据自助服务有赖于 2 部分建设：元数据管理（首要工作） ，指标体系建设。

建立企业级指标体系的意义：纵向、横向比较。指标口径清晰，统一规范；

支持用户的自助灵活用数；有效控制报表开发成本。

Q：针对银行业金融机构有哪些指标？

A：核心价值指标（盈利性指标、业务运营指标、资源和局限性指标、宏观经济指标等）。

关键指标（对银行的业务经营和管理决策具有重要意义，作为核心价值指标的补充（通过指标重要性评分得出），形成上百个关键指标提供用户使用）。

常用指标（绩效考核、风险管理、财务报告、监管统计）。

基础指标库（客户经理指标、产品经理指标、信贷评审员指标）。数据来源系统（涵盖外部监管，如（银监会、人民银行）统计要求、银行高管统计需求（如行长报告）、各业务条线统计需求（如支付结算、信用卡、产品管理、投资理财、渠道管理、客户资产管理、投资银行、信贷、贸易融资等）、机构和员工绩效考核需求、以及同业领先实践补充）。

建立指标和维度的主题应用场景和多维模型（不再是传统意义上的多维模型，而是 ROLAP，基于关系型数据库，对接多维方法的多维模型）。

Q：保障指标落地难点有哪些？
A：1）调整组织架构；
2）主数据定了标准，可能无法贯标；
3）指标体系。
相关软件：

PowerBI 创建报表。

Kettle 做 ETL（美国用 talend 较多）。

Mahout 做推荐引擎。

CIA、美国军方使用组合：数据仓库数据库 Netezza，数据集成ETL Obention，前端 palantir（找到本拉登的，《指环王》剧中能穿越时空、看到一切的水晶球）。
在数仓中规划落实元数据

案例：上海一家银行指标体系（3k 多指标）。
参考书《阿里巴巴零售模型白皮书》。

第十一章 数据仓库和商务智能 10分