文章目录
表结构数据
以字段或记录作为数据的引用、操作及计算的基本单位的数据
- 字段:整列数
- 记录:整行数
- 维度:业务角度
- 度量:业务行为结果
- 维度字段:文本型
- 度量字段:数值型
事实表及维度表
维度表:只包含维度信息的表
事实表:既包含维度信息又包含度量信息的表
表结构数据特征-1
以字段或记录作为数据的引用、操作及计算的基本单位的数据
- 第一行为标题行
- 第二行以后称为记录
- 字段名不能重名
- 一个字段只能有一种数据类型
表结构数据特征-2
所有字段记录行数相同
- 方形结构
- 记录行数相同
- 存在空值
- 处理缺失值
处理缺失值-1
根据数据类型以及生成信息重要程度的不同,使用不同的方法处理缺失值
-
文本型字段
-
影响不大:以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换
-
影响大:招业务人员进行确认后替换,或者与业务人员核实后删除
-
数值型字段
-
综合考虑该数值型字段所代表的度量意义以及针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法
表结构数据特征-3
一个表中有且只有一个主键
物理意义
单字段主键:由一个字段构成的主键
多字段联合主键:由多个字段构成的主键
非空不重复
定位记录行、字段名+主键值定位具体数值
多以"xxID"、"xxNo"、"xx编号"等名称命名
物理意义
表的业务记录单位,在一个数据表中的所有非主键字段都要围绕主键展开
确定主键的方法
- 如果直接对数据库中的数据表进行操作,可以通过SQL语句确认数据表的字段
- 如果间接在其他数据分析平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用),可以找原数据库中数据表的设计者咨询主键信息,或是直接查看数据表设计者留下的设计资料来对主键字段进行确认
- 通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测的主键字段中的记录值是否能满足"非空"、"不重复"的要求来对主键字段进行确认
"应用"表格结构数据、"引用"表结构数据
关系型数据库管理系统
关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享
- 多层级结构
- OLTP
- 可量化、结构化数据
- 提供大部分数据源
- 不善于分析
商业智能系统-BI
数据库多用于存储数据,如果需要分析,BI工具更胜于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察
- 强于分析
- 多功能模块构成
- 两种主要类型
- 多维数据集
- 所见即所得
ETL功能
将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库
- E-抽取:创建与不同数据源间的连接关系,对这些数据源中的数据进行"引用"
- T-清洗转换:
- 1 清洗的主要任务是筛选过滤不完整、错误及重复的数据记录
- 2 对"粒度"不一致的数据进行转换
- 3 对业务规则不一致的数据进行转换
- L-加载:将抽取出来的数据经过清洗与转换后加载到数据仓库中进行存储与使用
数据仓库 - DW
用来存储分析所需要的不同数据源上的所有相关数据信息
OLAP
连接信息孤岛、创建多维数据模型
表结构数据的横向合并
将不同表中的字段信息合并到同一个表中使用
表结构数据的横向合并1
将不同表中的字段信息合并到同一个表中使用
表结构数据的横向合并2
将不同表中的字段信息合并到同一个表中使用
表结构数据的横向合并3
将不同表中的字段信息合并到同一个表中使用
表结构数据的横向合并4
将不同表中字段信息合并到同一个表中使用
表结构数据的横向合并5
将不同表中字段信息合并到同一个表中使用
表结构数据的汇总1
数据透视--对零散数据进行汇总分析
表结构数据的汇总2
数据透视-对零散数据进行汇总分析
表结构数据的汇总3
维度筛选度量、度量被维度筛选
表结构数据的汇总4
表结构数据的汇总5
将表格进行汇总统计,从销售业绩表得到透视表
表结构数据的汇总6
数据分析是连接零散数据与人类认知间的桥梁