第一章 Hello大数据分布式
数据导论
什么是数据?
数据:一种可以被鉴别的对客观事件进行记录的符号。
简单来说就是:对人类的行为及产生的事件的一种记录。
数据的价值
对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。
大数据技术栈
当下时代已经是数据的时代,数据非常重要并且蕴含巨大的价值。
大数据诞生
大数据的诞生是跟随着互联网的发展的
当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。
基于这个前提逐步诞生了以分布式(以数量战胜数量,多台服务器处理海量数据) 的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。
分布式处理技术
Apache Hadoop
Apache Hadoop对大数据体系的意义
第一款获得业界普遍认可的开源分布式解决方案
让各类企业都有可用的企业级开源分布式解决方案
一定程度上催生出了众多的大数据体系技术栈
从Hadoop开始(2008年左右)大数据开始蓬勃发展
大数据概述
什么是大数据?
大数据特征
从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
大数据核心工作
大数据软件生态
数据存储
数据计算
数据传输
Apache是什么?
Apache(Apache软件基金会)是一个专门为支持开源软件项目而办的非营利性组织,在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证(Apache License)。
Apache Hadoop概述
什么是Hadoop?
可以实现大数据核心工作的存储和计算(另一个是传输)