Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
代码欢乐豆2 分钟前
MongoDB的部署和操作
数据库·mongodb
<e^πi+1=0>14 分钟前
使用Locust对MongoDB进行负载测试
数据库·mongodb
圆蛤镇程序猿23 分钟前
【什么是MVCC?】
java·数据库·oracle
开心邮递员24 分钟前
sql server: split 函数;cross apply操作符
数据库·sql
老大白菜26 分钟前
PostgreSQL 内置函数
数据库·postgresql
Damon撇嘴笑26 分钟前
Cause: java.sql.SQLException: sql injection violation, comment not allow异常问题处理
java·数据库·sql
山林竹笋44 分钟前
Java解析PDF数据库设计文档
数据库·pdf
Elastic 中国社区官方博客1 小时前
在不到 5 分钟的时间内将威胁情报 PDF 添加为 AI 助手的自定义知识
大数据·人工智能·安全·elasticsearch·搜索引擎·pdf·全文检索
Aimin20221 小时前
Kali系统(Debian 10.3) 遇到的问题
数据库·mysql·debian
Run Out Of Brain1 小时前
使用systemd管理MySQL服务器
服务器·数据库·mysql