第1章 大数据概述
1、大数据内涵
大规模数据的集合体
捕捉、管理和处理数据的技术
2、大数据特征(4V特征)
Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低
3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop
1、Hadoop概述
Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构
Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理
Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN
2、Hadoop生态系统

①Common:提供基础工具
②HDFS:Hadoop Distributed File System,分布式文件系统
③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架
④MapReduce:计算框架
⑤HBase:开源数据库
⑥ZooKeeper:应用程序协调框架
⑦Hive:数据库工具,提供SQL接口
⑧Flume:日志采集、聚合、传输的框架
⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换
⑩Kafka:发布订阅消息系统
3、Hadoop体系结构
Hadoop集群采用主从架构
NameNode、ResourceManager为主,DataNode、NodeManager为从
NameNode、DataNode负责完成HDFS的工作
ResourceManager、NodeManager负责完成YARN的工作
4、Hadoop运行模式
单机模式、伪分布模式、全分布模式