1、Hadoop的发展史:
Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable
,随着时间的推移:
hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU
2、什么是Hadoop?
Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。
3、Hadoop的三大组件:
1、Hdfs:
是一种分布式文件系统,主要的作用是存储数据。
2、Yarn:
作业调度和集群资源管理的框架,主要的作用是负责资源的分配。
3、MapReduce:
基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。
4、名词科普:
服务器(节点):
企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。
机架:
一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。