大数据平台基础(Hadoop大数据原理与应用)

第1章 大数据概述

1、大数据内涵

大规模数据的集合体

捕捉、管理和处理数据的技术

2、大数据特征(4V特征)

Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低

3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop

1、Hadoop概述

Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构

Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理

Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN

2、Hadoop生态系统

①Common:提供基础工具

②HDFS:Hadoop Distributed File System,分布式文件系统

③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架

④MapReduce:计算框架

⑤HBase:开源数据库

⑥ZooKeeper:应用程序协调框架

⑦Hive:数据库工具,提供SQL接口

⑧Flume:日志采集、聚合、传输的框架

⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换

⑩Kafka:发布订阅消息系统

3、Hadoop体系结构

Hadoop集群采用主从架构

NameNode、ResourceManager为主,DataNode、NodeManager为从

NameNode、DataNode负责完成HDFS的工作

ResourceManager、NodeManager负责完成YARN的工作

4、Hadoop运行模式

单机模式、伪分布模式、全分布模式

相关推荐
乐迪信息4 小时前
乐迪信息:煤矿堆煤隐患难排查?AI摄像机实时监控与预警
大数据·人工智能·算法·安全·视觉检测
翰林小院7 小时前
【RabbitMQ】 RabbitMQ Overview
分布式·rabbitmq
Hello.Reader9 小时前
Flink Checkpoint 通用调优方案三种画像 + 配置模板 + 容量估算 + 巡检脚本 + 告警阈值
大数据·flink
Hy行者勇哥12 小时前
公司全场景运营中 PPT 的类型、功能与作用详解
大数据·人工智能
liliangcsdn12 小时前
如何基于ElasticsearchRetriever构建RAG系统
大数据·elasticsearch·langchain
乐迪信息12 小时前
乐迪信息:基于AI算法的煤矿作业人员安全规范智能监测与预警系统
大数据·人工智能·算法·安全·视觉检测·推荐算法
极验12 小时前
iPhone17实体卡槽消失?eSIM 普及下的安全挑战与应对
大数据·运维·安全
失散1313 小时前
分布式专题——39 RocketMQ客户端编程模型
java·分布式·架构·rocketmq
B站_计算机毕业设计之家13 小时前
推荐系统实战:python新能源汽车智能推荐(两种协同过滤+Django 全栈项目 源码)计算机专业✅
大数据·python·django·汽车·推荐系统·新能源·新能源汽车