大数据平台基础(Hadoop大数据原理与应用)

第1章 大数据概述

1、大数据内涵

大规模数据的集合体

捕捉、管理和处理数据的技术

2、大数据特征(4V特征)

Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低

3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop

1、Hadoop概述

Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构

Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理

Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN

2、Hadoop生态系统

①Common:提供基础工具

②HDFS:Hadoop Distributed File System,分布式文件系统

③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架

④MapReduce:计算框架

⑤HBase:开源数据库

⑥ZooKeeper:应用程序协调框架

⑦Hive:数据库工具,提供SQL接口

⑧Flume:日志采集、聚合、传输的框架

⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换

⑩Kafka:发布订阅消息系统

3、Hadoop体系结构

Hadoop集群采用主从架构

NameNode、ResourceManager为主,DataNode、NodeManager为从

NameNode、DataNode负责完成HDFS的工作

ResourceManager、NodeManager负责完成YARN的工作

4、Hadoop运行模式

单机模式、伪分布模式、全分布模式

相关推荐
笨蛋少年派16 分钟前
Flume数据采集工具简介
大数据
梦里不知身是客1117 分钟前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
小C8061 小时前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据
lang201509282 小时前
Kafka元数据缓存机制深度解析
分布式·缓存·kafka
西格电力科技3 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
qq_343247033 小时前
单机版认证kafka
数据库·分布式·kafka
武子康4 小时前
Java-199 JMS Queue/Topic 集群下如何避免重复消费:ActiveMQ 虚拟主题与交付语义梳理
java·分布式·消息队列·rabbitmq·activemq·mq·java-activemq
beijingliushao4 小时前
105-Spark之Standalone HA环境搭建过程
大数据·spark
源代码•宸4 小时前
分布式缓存-GO(简历写法、常见面试题)
服务器·开发语言·经验分享·分布式·后端·缓存·golang