数据科学每日总结--Day42--大数据分析

简介

大数据是一个专注于存储、处理和分析来自多个来源的大量数据的领域，其不仅仅可以用来解决数据管理问题（如通过云储存，将数据分散到低成本服务器集群中，实现近乎无限的存储；批量进行数据分析；可以构建独立的扩展计算和存储资源，提高效率的同时降低成本），还能从数据中发现问题，进而给出决策并创造额外价值（如从销售额的波动，通过关联分析，用户行为分析给出原因和因果关系链，进而预测未来该采取什么决策或者预测未来的销售额趋势）。

可能有很多人在平时没怎么听过大数据，这是正常的，因为在本地的项目或者一些小项目，我们针对样本集的处理，会通过抽样来提高效率，探索样本特点；而大数据可以直接存储、处理并分析每个样本，一般用于运营优化，改进决策，故障检测，科学发现等，处理的数数据集一般是图像，文本，语音文件。

数据分析

大数据里分析一般会根据结果分为四类，分别是：

描述性分析（低复杂）：旨在回答关于已发生事件的问题，比如过去2年的销售额，接到过多少次电话等，通常以临时报告的形式呈现，以数据网格或网络的形式展示历史数据，是静态的；
诊断性分析（中度复杂）：旨在通过聚焦事件背后的原因的问题，确定过去现象的原因，比如为什么第四季度的销售额比第三季度的高，来自香港的电话比韩国的多等，通过交互式可视化工具查看，从而能够识别趋势和模式。由于分析的是处理系统中存储多维（比如销售额数据有产地，产品，用户，时间等信息）的系统数据，复杂度略高；
预测性分析（中度复杂）：旨在试图确定或预测未来可能发生的事件的结果，比如使用药物A，不用药物B，患者的死亡率会是多少；客户买了产品D和C，那客户买产品E的可能性有多大。由于预测是基于过去的数据，那么预测时如果基础的前置条件发生变化，预测时的模型参数也要随之改变；
指示性（也就是给出决策）分析（高复杂）：基于预测分析的结果，制定应采取的行动，比如四种药物中哪种效果最好；交易某个期权的最佳时间是什么时候，涉及利用知识和数据来模拟结果并制定最佳方案。

一个正常的数据分析周期是收集、清洗、整理、存储、分析到治理（管理）数据，是一个通过分析数据以发现事实、关系、模式、见解和/或趋势的过程，目标是给出更好的决策。

智能绩效指标（BI）

在如今这个时代，普通的KPI，已经不能满足于一般企业的标准了，都会引入智能绩效，是通过分析企业的业务流程和信息系统生成的数据，洞察企业的绩效，主要是将抽象的项目表现具象化为某些可测量的标准及将标准合理化，将为员工提供培训改为培训后员工对使用手册的熟悉度达到80%，盈利增长100%改为盈利增长10%等。

数据形式

大数据与一般的数据的不同点主要体现在四个方面：

体积（volume）：指的是大数据解决方案处理的数据量，大量数据会带来很高的数据存储和处理需求，比如在线交易，研究试验，传感器数据，社交媒体数据等；
速度（velocity）：在大数据环境中，大型数据集可以在极短时间内积累。例如像70万条推文、600小时的YouTube视频、3.42亿封电子邮件都可以在短时间内生成；
多样性（variety）：在大数据环境中，存在多种格式和类型的数据，比如结构数据（遵循数据模型或模式，通常以表格形式存储。它用于捕捉不同实体之间的关系，因此通常存储在关系数据库中（例如MySQL、MSSQL）。结构数据通常可以通过SQL直接处理或查询），半结构数据（具有明确的结构和成分层次，但本质上并非关系型，通常存储在包含文本的文件中，如CSV，XML，JSON，YAML ），文本数据（服务器日志），元数据（提供关于数据集特性和结构的信息，例如歌曲数据的元数据就是歌手）;
准确性（veracity）：指的是数据的质量或准确度，数据可能是数据集信号或噪声的一部分，噪声数据无法转化为有意义的信息，信号有价值并能传递有意义的信息。

此外，大数据的数据集还要看蕴含的价值和时间，毕竟商业领域最重要的就是盈利。价值与真实度挂钩，数据保真度越高，对企业的价值就越大；数据转化为有意义信息所需的时间越长，对企业的价值就越低