DAMA数据管理知识体系(第11章 数据仓库和商务智能)

  • 课本内容
    • 11.1 引言
      • 概要
        • 数据仓库被公认为企业数据管理的核心
        • 语境关系图
          • 图11-1 语境关系图:数据仓库和商务智能
      • 业务驱动因素
        • 运营支持职能
        • 合规需求
        • 商务智能活动
      • 目标和原则
        • 目标
          • 一个组织建设数据仓库的目标通常有: 1)支持商务智能活动。 2)赋能商业分析和高效决策。 3)基于数据洞察寻找创新方法。
        • 指导原则
          • 聚焦业务目标
          • 以终为始
          • 全局性的思考和设计,局部性的行动和建设
          • 总结并持续优化,而不是一开始就这样做
          • 提升透明度和自助服务
          • 与数据仓库一起建立元数据
          • 协同
          • 不要千篇一律
      • 基本概念
        • 数据仓库
          • 数据集市是数据仓库中数据子集的副本
        • 数据仓库建设
          • 数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、 加载等操作过程
        • 数据仓库建设的方法
          • Inmon和Kimball遵循的核心理念
            • 1)数据仓库存储的数据来自其他系统。 2)存储行为包括以提升数据价值的方式整合数据。 3)数据仓库便于数据被访问和分析使用。 4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。 5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。
          • 企业信息工厂(CIF)
            • 概念:面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合
            • 与业务系统不同点
              • 面向主题的
              • 整合的,数据仓库中的数据是统一的、内聚的
              • 随时间变化的
              • 稳定的
              • 聚合数据和明细数据
              • 历史的
            • 组成部分
              • 应用程序
              • 数据暂存区
              • 集成和转换
              • 操作型数据存储(ODS)
                • 操作型数据存储是业务数据的集成数据库。数据可能直接来源于应用系统,也可能来自其他数据库。
              • 数据集市
                • 数据集市为后续的数据分析提供数据。这里说的数据通常是数据仓库的子集,用于支持特定分析或特定种类的消费者。例如,数据集市可以聚合数据,以支持更快的分析
              • 操作型数据集市
                • 操作型数据集市是专注于运营决策支持的数据集市。它直接从操作型数据存储而不是从数据仓库获取数据,具有与操作型数据存储相同的特性
              • 数据仓库
                • 数据从应用程序系统和操作型数据 存储流入数据仓库,然后流到数据集市,这种流动通常只是单向的。
              • 运营报告
              • 参考数据、主数据和外部数据
              • 企业信息工厂(CIF)
                • 1)目标从业务功能的执行转向数据分析。2)系统最终用户从一线业务人员变成企业决策者。3)系统使用从固定操作转向即席查询。4)响应时间的要求不再重要(战略决策分析比例行操作需要花更多的时间)。5)每个操作、查询或流程涉及更多数据
            • 数据仓库和数据集市的数据与应用程序中的数据不同
              • 1)数据的组织形式是按主题域而不是按功能需要。2)数据是整合的数据,而不是"孤立"的烟囱数据。3)数据是随时间变化的系列数据,而非仅当前时间的值。4)数据在数据仓库中的延迟比在应用程序中高。5)数据仓库中提供的历史数据比应用程序中提供的历史数据多。
          • 多维数据仓库( Kimball)
            • 多维模型通常称为星型模型,由事实表(包含有关业务流程的定量 数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性, 为数据消费者解答关于事实表的问题,如这个季度产品X卖了多少)组成。
            • 组成部分
              • 业务源系统
              • 数据暂存区域
              • 数据展示区域
              • 数据访问区域
          • 数据仓库架构组件
            • 源系统
            • 数据集成
            • 数据存储区域
              • 暂存区
              • 参考数据和主数据一致性维度
              • 中央数据仓库
              • 操作型数据存储(ODS)
                • 不同于数仓的ODS层
              • 数据集市
              • 数据立方体(Cubes)
                • 存在三种经典的支持在线分析处理系统(OLAP)实现方法:基于关系数据库的、基于多维数据库的及混合型存储结构的
            • 数据仓库/商务智能和大数据概念架构
    • 11.2 活动
      • 理解需求
        • 在收集数据仓库/商务智能项目的需求时,首先,要考虑业务目标和业务战略,确定业务领域并框定范围;然后,确定并对相关的业务人员进行访谈,了解他们想做些什么和这么做的原因,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类重要信息。在可能的情况下,界定并书面记录关键的性能指标和计算口径。这些信息可以揭示业务规则,为数据质量自动化奠定基础。 将需求进行分类并排出优先级,与生产上线相关的排在前面,将与数据仓库相关的和那些可以等的排在后面。寻找并快速启动那些简单且有价值的项目,以便在项目初始发布阶段就能获得产出。数据仓库/商务智能项目需求描述应该包括业务领域及其范围内流程的完整业务背景
      • 定义和维护数据仓库/商务智能架构
      • 开发数据仓库和数据集市
        • 三条并存的构建轨迹
          • 1)数据。支持业务分析所必需的数据。
          • 2)技术。支持数据存储和迁移的后端系统及流程。
          • 3)商务智能工具。数据消费者从已部署的数据产品中获得有意义的数据洞察所必需的应用套件。
        • 将源映射到目标
          • 映射工作最困难的部分都是确定多个系统中数据元素之间的链 接有效性或等效性,考虑将多个计费或订单管理系统的数据合并到一个数据仓库中的工作,可能包含等效数据的表和字段用的不是相同的名字 或结构
        • 修正和转换数据
          • 强化数据修正或清理活动的执行标准,并纠正和增强各个数据元素 的域值。对于涉及重要历史数据的初始加载过程,数据修正工作尤为必 要。
          • 乐观加载策略可以包括创建维度记录以容纳事实数据,这样的过程 必须考虑如何更新和处理这些记录。悲观加载策略应该考虑一个事实数 据的回收区域,该区域不能与相应的维度键关联。这些记录需要适当的 通知、告警和报表,以确保它们被跟踪,并在以后重新加载。实际处理 的时候应考虑首先加载回收区的记录,然后处理新到达的内容。
        • 监控和调优商务智能活动和性能
          • 商务智能监控和调优的最佳实践是定义和显示一组面向客户满意度 的指标,
          • 透明度和可见性是推动数据仓库/商务智能监控的关键原则。
      • 加载数据仓库
        • 加载方法还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。
      • 实施商务智能产品组合
      • 维护数据产品
        • 发布管理
          • 发布管理对增量的开发过程至关重要,增加新功能,增强生产部 署,并确保为已部署的资产提供定期维护。这个过程将使数据仓库保持 是最新的、清洁的,并以最佳状态运行。
            • 图11-5 发布流程示例
        • 管理数据产品开发生命周期
        • 监控和调优加载过程
          • 使用数据库调优技术,包括分区、备份调优和恢复策略调整。数据归档是数据仓库构建中的一个难题。
        • 监控和调优商务智能活动和性能
          • 透明度和可见性是推动数据仓库/商务智能监控的关键原则。
    • 11.3 工具
      • 元数据存储库
        • 数据字典和术语
          • 数据字典是支撑数据仓库使用的必需组件。
          • 数据字典的内容直接来自逻辑数据模型。在建模过程中,应要求建模人员采用严格的定义管理方法,以规划高质量的元数据。
        • 数据和数据模型的血缘关系
          • 记录的数据血缘关系有很多用途
            • 1)调查数据问题的根本原因。 2)对系统变更或数据问题进行影响分析。 3)根据数据来源确定数据的可靠性
      • 数据集成工具
        • 考虑系统管理的如下功能
          • 1)过程审计、控制、重启和调度。 2)在执行时有选择地提取数据元素并将其传递给下游系统进行审计的能力。 3)控制哪些操作可以执行或不能执行,并重新启动那些失败或中止的进程
      • 商务智能工具的类型
        • 运营报表
          • 运营报表指的是业务用户直接从交易系统、应用程序或数据仓库生成报表。
        • 业务绩效管理(BPM)
          • 绩效管理是一套集成的组织流程和应用程序,旨在优化业务战略的执行。应用程序包括预算、规划和财务合并。
        • 描述性的自助分析
        • 运营分析应用
          • OLAP操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视
          • 三种经典的OLAP分析方法
            • 关系型联机分析处理(ROLAP)
            • 多维矩阵型联机分析处理(MOLAP)
            • 混合型联机分析处理(HOLAP)
    • 11.4 方法
      • 驱动需求的原型
        • 对数据进行剖析(Profiling)有助于原型设计,并降低与非预期数 据相关的风险。
      • 自助式商务智能
      • 可查询的审计数据
        • 为了维系数据血缘关系,所有的结构和流程都应该能够创建和存储审计信息,并能够进行细粒度的跟踪和报告。
    • 11.5 实施指南
      • 就绪评估/风险评估
        • 1)明确数据敏感性和安全性约束。 2)选择工具。 3)保障资源安全。 4)创建抽取过程以评估和接收源数据。
      • 版本路线图
      • 配置管理
      • 组织和文化变革
    • 11.6 数据仓库和商务智能治理
      • 概要
        • 治理流程应该降低风险,而不是减少任务的执行。
        • 最关键的功能是那些管理业务运营的发现或改进区域,以及确保数据仓库本身质量稳定的功能
      • 业务接受度
        • 预先还要考虑一些非常重要的架构子组件及其支持活动,具体如下:
          • 概念数据模型。组织的核心信息是什么?关键的业务概念是什么?它们是如何相互关联的?
          • 数据质量反馈循环。
          • 端到端元数据。
          • 端到端可验证数据血缘
      • 客户/用户满意度
      • 服务水平协议
        • 响应时间、数据保留和可用性要求在不同业务需求类别及其各自的支持系统(如ODS、数据仓库和数据集市)之间存在很大差异
      • 报表策略
        • 报表策略必须解决如下问题
          • 安全访问
          • 描述用户交互、报告、检查或查看其数据的访问机制
          • 用户社区类型和使用它的适当工具
          • 报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质
          • 通过图形化输出发挥可视化功能的潜力
          • 及时性和性能之间的权衡
      • 度量指标
        • 使用指标
          • 数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。
        • 主题域覆盖率
        • 响应时间和性能指标
  • 考察分值&知识点
    • 考察分值
      • 10分
相关推荐
zhixingheyi_tian3 小时前
Spark 之 Aggregate
大数据·分布式·spark
PersistJiao3 小时前
Spark 分布式计算中网络传输和序列化的关系(一)
大数据·网络·spark
武子康5 小时前
Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试
java·开发语言·数据仓库·sql·mybatis·springboot·springcloud
宅小海6 小时前
scala String
大数据·开发语言·scala
小白的白是白痴的白6 小时前
11.17 Scala练习:梦想清单管理
大数据
java1234_小锋6 小时前
Elasticsearch是如何实现Master选举的?
大数据·elasticsearch·搜索引擎
JessieZeng aaa9 小时前
CSV文件数据导入hive
数据仓库·hive·hadoop
Java 第一深情10 小时前
零基础入门Flink,掌握基本使用方法
大数据·flink·实时计算
MXsoft61811 小时前
华为服务器(iBMC)硬件监控指标解读
大数据·运维·数据库
PersistJiao11 小时前
Spark 分布式计算中网络传输和序列化的关系(二)
大数据·网络·spark·序列化·分布式计算