1、数据分析概述
数据分析:对大量有序或无序的数据进行信息的集中整合、运算提取、展示等操作,通过这些操作找出研究对象的内在规律。
目的:揭示事物运动、变化、发展的规律。
意义:提高系统运行效率、优化系统作业流程、预测未来发展趋势。
2、发展历程
数据分析的发展历程的三个阶段:
1.0 商业智能(BI)
通过商业智能,将数据分析人员从大量、简陋的数据图表分析中解放出来,通过数据仓库整合企业数据,采用商业智能(BI, Business Intelligence)报表工具实现美观清晰、模块化、动态更新的数据可视化展示,让管理层或决策者能够基于事实结果做决策。
2.0 大数据分析
随着互联网的发展,全世界2020年产生的数据约为50ZB,而且每年都在增长,传统的商业智能数据分析已经满足不了企业对如此大量、复杂的数据进行处理分析。
企业需要更加强大的数据分析工具,比如大数据开发框架,它能支持企业海量数据运行和分析,结合商业智能报表工具,可以实现对数据的实时监控和展示,并且能够通过对历史数据分析建立相应的预测模型,对未来趋势进行预测。
3.0 数据中台
由于企业不同部门业务不同等的差异,采用的数据处理系统或框架也可能不一样。这样导致企业各部门或不同的系统数据相互独立、隔离,不能实现企业数据真正的互通、互融,使得数据的整体价值难以更好的体现。
互联网行业的人一般都听说过前端和后端(或称前台、后台),中台是什么?前端是直达用户的系统,如门户网站、手机APP、公众号等;后端是业务管理的系统集合,如财务系统、ERP系统及基础设施、存储计算平台等;而中台是与前台、后台对应的概念,中台可以让数据在数据平台和业务系统之间形成一个良性的闭环。
数据中台 是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是一个数据管理体系,内容涉及全局数据仓库规划、规范定义、建模研发、连接萃取、运维监控等。数据中台作为一个整体,输出统一、规范、标准的大数据资产,为企业或客户提供高效服务。
以下是前台、数据中台、后台之间的关系图:
3、应用领域
数据分析早已渗透各行业各业,主要包含:互联网、电子商务、金融保险、在线教育、生产制造、生物医疗、交通物流、餐饮外卖、能源、城市管理、体育娱乐等行业。
4、开发流程
数据分析开发流程一般分为下面5个阶段,主要包含:数据采集、数据处理、数据建模、数据分析、数据可视化。
数据采集: 数据通常来自于企业内部或外部,企业内部数据可以直接从系统获得,外部数据则需要购买,或者通过爬虫等数据采集工具采集;
数据处理: 获取到的数据往往会包含一些干扰数据、不完整数据,因此一般需要对数据做相应的处理;
数据建模: 不同的业务对数据的需求不同,根据相关业务或战略需求建立相应的数据模型,有针对性进行主题分析;
数据分析: 根据模型中要分析或计算的指标,采用相应的分析方法进行数据分析,得出目标分析结果;
数据可视化: 将数据分析结果进行可视化展示,使其更加方便业务人员或决策者理解。
5、数据类型的结构化与非结构化
结构化数据: 指以行、列等数据结构模型存储,有严格维度划分或属性标注的数据,如实验表数据、关系型数据库的表记录等都是结构化数据。
非结构化数据: 与结构化数据相对应,比如软件系统产生的日志、一封邮件、HTML网页、一张图片、一段微信聊天记录等。
显然结构化数据更易于做数据分析,很多数据分析模型都只能使用结构化数据,因此遇到非结构化数据时,我们一般会先将非结构化数据转化成结构化数据,再进行数据分析。
6、定性与定量数据
定性数据: 指描述事物的属性、类别、特征的数据,不能进行加减乘除等数学计算,一般是字符型,包含汉字、字母、数字、符号等;
定量数据: 指描述事物的数量、大小或多少的数据,可以进行加减乘除等数学计算,一般是数值型,包含整数、浮点数等;
7、截面数据与时间序列数据
截面数据(cross section data): 是在同一时间(时期或时点)截面上搜集的数据。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同,也就是说必须是同一时间截面上的数据。
时间序列数据(time series data): 是在多个不同时间点上搜集的数据。这类数据反映了某一事物、现象等随时间的变化状态或程度。
面板数据(Panel Data): 也叫"平行数据",是指在时间序列上取多个截面,这些截面的样本数据称为面板数据。面板数据是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。
8、数据来源
数据的来源主要分为两大类,企业 外部来源 和 内部来源。
外部来源 :外包购买、网路爬取、免费开源数据等;
内部来源:销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;
9、常见购买平台
l 东湖大数据:提供气象数据、车辆数据、企业数据、征信数据、电商数据、旅游数据等行业数据服务。
http://www.chinadatatrading.com/datacustom.html
l 数据堂:提供智能家居、驾驶、文娱等数据服务。
l IT桔子:提供互联网创业投资项目信息数据库和商业信息服务的公司。
互联网上的"开放数据"来源,如政府机构、非营利组织和企业免费提供的数据。以下是一些常用的开发数据平台,包括金融财经数据、互联网数据、政府数据等。
l 开源数据平台网站资源地址:
https://blog.csdn.net/Artificial_idiots/article/details/107878782
文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理