【数据仓库基础(四)】数据仓库需求:基本需求和数据需求

文章目录

  • [一. 基本需求](#一. 基本需求)
    • [1. 安全性](#1. 安全性)
    • [2. 可访问性](#2. 可访问性)
    • [3. 自动化](#3. 自动化)
  • [三. 数据需求](#三. 数据需求)

从基本需求和数据需求两方面介绍对数据仓库系统的整体要求。

一. 基本需求

1. 安全性

数据仓库中含有机密和敏感的数据。为了能够使用这些数据,必须有适当的授权机制。这意味着只有被授权的用户才能访问数据,这些用户在享有特权的同时,也有责任保证数据的安全。

增加安全特性会影响到数据仓库的性能,因此必须提早考虑数据仓库的安全需求。当数据仓库已经建立完成并开始使用后,此时再应用安全特性会比较困难。

在数据仓库的设计阶段,我们就应该进行如下的安全性考虑:

  • 数据仓库中的数据对于最终用户是只读的,任何人都不能修改其中的数据,这是由数据的非易失性所决定的。
  • 划分数据的安全等级,如公开的、机密、秘密、绝密等。
  • 制定访问控制方案,决定哪些用户可以访问哪些数据。
  • 设计授予、回收、变更用户访问权限的方法。
  • 添加对数据访问的审计功能。

2. 可访问性

用户能够有效地查找、理解和使用数据。数据应该是随时可访问的。这里数据可访问性指的是用户访问和检索数据的能力。

数据仓库的最终用户通常是业务人员、管理人员或者数据分析师。他们对组织内的相关业务非常熟悉,对数据的理解也很透彻,但是他们大都不是IT技术专家。

这就要求我们在设计数据仓库的时候,将用户接口设计得尽量友好和简单,使得没有技术背景的用户同样可以轻易查询到他们需要的数据。

3. 自动化

这里的自动化有狭义和广义两个层面的理解。

  • 狭义的自动化指的是数据仓库相关作业的自动执行。比如ETL过程、报表生成、数据传输等处理,都可以周期性定时自动完成。
  • 广义的数据仓库自动化指的是在保证数据质量和数据一致性的前提下,加速数据仓库系统开发周期的过程。整个数据仓库生命周期的自动化,从对源系统分析到ETL,再到数据仓库的建立、测试和文档化,可以帮助加快产品化进程,降低开发和管理成本,提高数据质量。

三. 数据需求

通过数据仓库,既可以周期性地回答已知的问题(如报表等),也可以进行即席查询(ad-hoc queries)。

  • 报表最基本的需求就是对预定义好的一系列查询条件、查询内容,排序条件等进行组合,查询数据,把结果用表格或图形的形式展现出来。
  • 所谓的即席查询不是预定义好的,而是在执行时才确定的。

数据库管理员使用命令行或客户端软件,连接数据库系统执行各种各样的查询语句,是最为常见的一种即席查询方式。而理想的数据仓库系统,允许业务或分析人员也可以通过系统执行这样的自定义查询。为了满足需求,数据仓库中的数据需要确保准确性、时效性和历史可追溯性。

1. 准确性

想要数据仓库实施成功,业务用户必须信任其中的数据。这就意味着他们应该能知道数据从哪来,何时抽取,怎么转换的。更重要的是,他们需要访问原始数据来确定如何解决数据差异问题。

实际上ETL过程应该总是在数据仓库的某个地方(如ODS)保留一份原始数据的复制。

2.时效性

用户的时效性要求差异很大。有些用户需要数据精确到毫秒级,而有些用户只需要几分钟、几小时甚至几天前的数据就可以了。

数据仓库是分析型系统,用于决策支持,所以实践中一般不需要很强的实时性,以一天作为时间粒度是比较常见的。

3.历史可追溯性

数据仓库更多的价值体现在它能够辅助随时间变化的趋势分析,并帮助理解业务事件(如特殊节日促销等)与经营绩效之间的关系。

参考:《Hadoop构建数据仓库实战》

相关推荐
出发行进9 分钟前
Hive其四,Hive的数据导出,案例展示,表类型介绍
数据仓库·hive·hadoop
武子康2 小时前
大数据-258 离线数仓 - Griffin架构 配置安装 Livy 架构设计 解压配置 Hadoop Hive
java·大数据·数据仓库·hive·hadoop·架构
18号房客8 小时前
高级sql技巧进阶教程
大数据·数据库·数据仓库·sql·mysql·时序数据库·数据库架构
Faith_xzc11 小时前
【Apache Doris】周FAQ集锦:第 26 期
大数据·数据仓库·开源·doris
武子康1 天前
大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构
java·大数据·数据仓库·hive·hadoop·后端
ProtonBase2 天前
如何从 0 到 1 ,打造全新一代分布式数据架构
java·网络·数据库·数据仓库·分布式·云原生·架构
csding112 天前
写入hive metastore报问题Permission denied: user=hadoop,inode=“/user/hive”
数据仓库·hive·hadoop
不会写代码的女程序猿3 天前
关于ETL的两种架构(ETL架构和ELT架构)
数据仓库·架构·etl
ssxueyi4 天前
数据仓库有哪些?
大数据·数据仓库·数据湖
武子康4 天前
大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入
大数据·数据仓库·hive·hadoop