Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
扑兔AI11 分钟前
B2B销售线索挖掘效率提升的技术实践:基于工商公开数据的客源筛选与竞品分析架构
大数据·人工智能·架构
墨染天姬1 小时前
【AI】cursor提示词小技巧
前端·数据库·人工智能
古月-一个C++方向的小白1 小时前
MySQL数据库——数据类型
android·数据库·mysql
小羊Yveesss2 小时前
从自动化到自主协同:2026年AIOps 2.0赋能DevOps的变革之路
大数据·自动化·devops
qq_413502022 小时前
如何创建CDB公共用户_C##前缀强制规则与CONTAINER=ALL
jvm·数据库·python
逸Y 仙X2 小时前
文章二十七:ElasticSearch ES查询模板(Search Template)高效复用实战
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
m0_738120722 小时前
应急响应(重点)——记一次某公司流量应急溯源分析(附带下载链接)
服务器·前端·数据库·安全·web安全·网络安全
yexuhgu2 小时前
CSS如何利用-checked实现纯CSS手风琴折叠_通过状态选择器控制区域高度
jvm·数据库·python
MY_TEUCK3 小时前
【git工具篇】Git 常用实战手册:从基础命令到分支冲突解决(开发实战版)
大数据·git