大数据平台基础(Hadoop大数据原理与应用)

第1章 大数据概述

1、大数据内涵

大规模数据的集合体

捕捉、管理和处理数据的技术

2、大数据特征(4V特征)

Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低

3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop

1、Hadoop概述

Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构

Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理

Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN

2、Hadoop生态系统

①Common:提供基础工具

②HDFS:Hadoop Distributed File System,分布式文件系统

③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架

④MapReduce:计算框架

⑤HBase:开源数据库

⑥ZooKeeper:应用程序协调框架

⑦Hive:数据库工具,提供SQL接口

⑧Flume:日志采集、聚合、传输的框架

⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换

⑩Kafka:发布订阅消息系统

3、Hadoop体系结构

Hadoop集群采用主从架构

NameNode、ResourceManager为主,DataNode、NodeManager为从

NameNode、DataNode负责完成HDFS的工作

ResourceManager、NodeManager负责完成YARN的工作

4、Hadoop运行模式

单机模式、伪分布模式、全分布模式

相关推荐
Dxy12393102161 小时前
别再让 ES 把你拖垮!5 个实战技巧让搜索性能提升 10 倍
大数据·elasticsearch·搜索引擎
2501_943695331 小时前
大专市场调查与统计分析专业,怎么辨别企业招聘的“画饼”岗位?
大数据
七夜zippoe1 小时前
CANN Runtime跨进程通信 共享设备上下文的IPC实现
大数据·cann
威胁猎人2 小时前
【黑产大数据】2025年全球电商业务欺诈风险研究报告
大数据
十月南城2 小时前
Hadoop基础认知——HDFS、YARN、MapReduce在现代体系中的位置与价值
hadoop·hdfs·mapreduce
L543414462 小时前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
证榜样呀2 小时前
2026 大专计算机专业必考证书推荐什么
大数据·前端
LLWZAI2 小时前
让朱雀AI检测无法判断的AI公众号文章,当创作者开始与算法「躲猫猫」
大数据·人工智能·深度学习
難釋懷2 小时前
分布式锁的原子性问题
分布式
SickeyLee2 小时前
产品经理案例分析(五):电商产品后台设计:撑起前台体验的 “隐形支柱”
大数据