大数据定义:
大数据指 无法在可承受的时间范围内用常规软件工具进行捕捉,管理和处理的数据集合 。是 需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产
大数据数据源的分类(3种):
- ****结构化数据:****使用统一结构表示,如Excel表格,企业人事系统,ERP...
- 半结构化数据: 处于结构和非结构化之间,如电子邮件 ,网上看的新闻 ,使用特效的文字....
- 非结构化数据: 没有固定结构的数据,如像图片可以保存为不同的格式(png,jpg...),此类数据有声音,图像,影像,留言,日志数据...
特征:(4V-5V)
1.Volume:大体量,数据量大
2.Variety:多种类,数据类型多
3.Velocity:高速度,处理速度快,时效性高,数据流转快
4.Value:低价值密度
5.Veracity:准确性,来自现实生活所有信息,具有一定的真实准确性。5V比4V多一个准确性的特征
大数据的起始计量单位是:PB(1000个TB),EB(100万个TB),ZB(10亿个TB)
背诵:从Gbit开始: GB,TB,PB,EB,ZB每个之间差约1000倍
PB,EB,ZB--可以记为"骗儿子"
大数据开发处理过程:
- 大数据采集 (来源(5种),采集技术(ETL))
- 大数据预处理 (步骤(4))
- 大数据存储与管理 (NoSQL特点)
- 大数据分析与挖掘 [分析方法(4),挖掘技术(3)]
- 大数据可视化 (可视化是什么,使用什么工具)
数据采集:
数据来源:
- WEB端(基于浏览器的网络爬虫,或者API)
- APP端(无线客户端采集SDK,或者埋点)
- 传感器(物联网测量值转换数字信号)
- 数据库
- 第三方数据
大数据抽取常用技术 (ETL技术):
- 抽取(extract):从各种数据源获取数据
- 转换(transform):按格式将源数据转换为目标数据
- 加载(load):把目标数据加载到数据仓中
大数据预处理:
步骤(4):
- 数据清洗: 提高数据质量,去掉缺失值,噪音
- 数据集成: 把各种局部数据整合到一起
- 数据规约: 把数据精简化,但是挖掘的数据结果和简化前是一样的
- 数据变换: 改变数据类型成为适合处理的类型
大数据的存储与管理:
- 使用非关系型数据库(NOSQ)L
nosql数据模型:类似键值,列族,文档等为关系模型
noSQL特点:++++可++++ ++++扩展,高性能,高可用,灵活的++++数据模型
- 分布式文件系统(FS):
把文件分部存储带多个计算机节点成千上万的计算机节点构成计算机集群
HDFS --- Hoodp的分布式文件系统 ;GFS ---Goole的分布式文件系统
大数据分析与挖掘:
1.分析方法分为以下四类:
1.描述型分析:发生了什么?
2.诊断型分析:为什么会发生?
3.预测性分析:可能发生什么?
4.指令型分析:下一步怎么做?
2.数据挖掘技术(3类):
分类:把数据进行分类 对应人工智能的监督,半监督学习
聚类:把相关的别类聚成一个大类 对应人工智能的无监督学习
关联规则:把类别之间建立关系 对应人工智能的强化学习
大数据可视化:
1.是什么? 值运用计算机图形学和图像处理技术,将数据转换为可以在屏幕上显示出来进行交换处理的方法和技术
2.最常用的表现形式:统计图表
常见图表:折线图,柱状图,饼图....
3.使用的工具:excel,tablean,matplotlib,EChart.......
大数据分析处理平台:
1.Hadoop(软件架构)
优点:分布式计算
不足:1.计算模型延迟高 2.无法胜任实时,快速的计算需求(如用于股票类型)
核心三大组件:
HDFS(分布式文件系统)--解决分布式存储
MapReduce(分布式计算框架)--解决分布式计算
YARN(分布式资源管理系统)--Hadoop分布式资源管理器
三种部署模式:
单击模式、伪分布模式、集群模式
Hbase(Hadoop Database):分布式文件存储系统,是HDFS的升级版,实现高可靠,高性能可伸缩,弥补HDFS擅长大数据存储,但不适合小条目存取的不足。
2.spark
弥补了Hadoop中MapReduce延迟高,无法胜任实时计算的缺陷
优点:1.可以通过基于内存来高效处理数据流
2.编程支持Java,python,Scala,R语言
3.可以用于批处理,交互式查询,实时流处理,机器学习和图处理。低延迟
Hadoop环境搭建/部署模式:
单击模式搭建:运行在一台单机上,没有分布式文件系统(HDFS),而是直接读写本地操作系统的文件系统
伪分部模式搭建:在单击上模拟Hadoop的分布式
集群搭建:hadoop守护进程运行在一个集群上
大数据技术使用场景:
关联分析,趋势预测和决策支持
必须知道的:5V,ETL,数据分析和数据清洗的作用,Hadoop缺点和spark优点