Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
Kookoos2 分钟前
ABP vNext + Spark on Hadoop:实时流处理与微服务融合
hadoop·微服务·spark·.net·abp vnext
是梦终空7 分钟前
JAVA毕业设计227—基于SpringBoot+hadoop+spark+Vue的大数据房屋维修系统(源代码+数据库)
hadoop·spring boot·spark·vue·毕业设计·源代码·大数据房屋维修系统
檀越剑指大厂1 小时前
【PostgreSQL系列】PostgreSQL WAL 目录配置
数据库·postgresql
顽强卖力2 小时前
数据分析六部曲?
大数据·数据挖掘·数据分析
运维行者_3 小时前
Azure数据库监控:如何在2025年选择合适的工具
运维·服务器·网络·数据库·flask·自动化·azure
AWS官方合作商7 小时前
亚马逊云科技 Amazon Pinpoint 解决方案:构建智能全渠道互动平台,重塑用户增长体验
大数据·科技·aws
卜及中8 小时前
【Redis/1-前置知识】分布式系统概论:架构、数据库与微服务
数据库·redis·架构
无人赴约的cat8 小时前
【20250607接单】Spark + Scala + IntelliJ 项目的开发环境配置从零教学
大数据·spark·scala
£菜鸟也有梦9 小时前
Flume进阶之路:从基础到高阶的飞跃
大数据·hive·hadoop·flume