Hadoop3:大数据的基本介绍

一、什么是大数据

1、大数据的4v特点

Volume(大量)
Velocity(高速)
Variety(多样)
Value(低价值密度)

2、大数据部门间的工作岗位

第三部分,其实就是JavaWeb

二、什么是Hadoop

三、Hadoop的4大优势

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元

素或存储出现故障,也不会导致数据的丢失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。

四、Hadoop架构简介

Hadoop3在架构组成上,和Hadoop2相同

1、Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。简单理解,就是用来存储文件的。

2、Yet Another Resource Negotiator 简称YARN(读作:雅恩) ,另一种资源协调者,是Hadoop的资源管理器。类似SpringBoot里面任务调度框架Quartz

3、MapReduce 将计算过程分为两个阶段:Map和Reduce

1)Map 阶段并行分发任务,进行数据处理

2)Reduce 阶段对Map结果进行汇总

相关推荐
qq_12498707532 分钟前
基于SSM框架的智能密室逃脱信息管理系统(源码+论文+部署+安装)
java·大数据·人工智能·spring boot·后端·毕业设计·计算机毕业设计
no24544108 分钟前
RAGFlow 全面接入 MinerU 2.0,支持 pipeline、vlm-transformers、vlm-sglang 三种模式,解析精度大幅度up
java·大数据·人工智能·python·ai·sglang
Hello.Reader11 分钟前
CSV Format Flink / PyFlink 读写 CSV 的正确姿势(含 Schema 高级配置)
大数据·python·flink
Leo.yuan20 分钟前
一次讲清五种常见BOM类型:工程BOM、制造BOM、计划BOM、成本BOM、服务BOM
大数据·产品运营·制造·bom
星火开发设计23 分钟前
深入浅出HDFS:分布式文件系统核心原理与实践解析
大数据·数据库·hadoop·学习·hdfs·分布式数据库·知识
一点 内容38 分钟前
智汇前沿,印创未来:2026中国五大专业印刷展会全景洞察与战略导航
大数据·人工智能·物联网
中科天工1 小时前
解锁效率革命:智能包装的工业4.0实践
大数据·人工智能·智能
cicada151 小时前
分享一个git日常开发流程
大数据·git·elasticsearch
aigcapi1 小时前
GPT API 哪家好?2026 企业级优选,4SAPI(星链引擎)凭四大核心优势领跑
大数据·人工智能·gpt
QYR_111 小时前
碳化硅晶锭市场报告:2026-2032年全球与中国产业发展趋势、供需格局及投资前景深度分析
大数据·市场调研