Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
wowocpp1 小时前
查看 磁盘文件系统格式 linux ubuntu blkid ext4
linux·数据库·ubuntu
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交4 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Ai 编码助手6 小时前
MySQL中distinct与group by之间的性能进行比较
数据库·mysql
Json_181790144807 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json
陈燚_重生之又为程序员7 小时前
基于梧桐数据库的实时数据分析解决方案
数据库·数据挖掘·数据分析
caridle7 小时前
教程:使用 InterBase Express 访问数据库(五):TIBTransaction
java·数据库·express
白云如幻7 小时前
MySQL排序查询
数据库·mysql
萧鼎7 小时前
Python并发编程库:Asyncio的异步编程实战
开发语言·数据库·python·异步
^velpro^7 小时前
数据库连接池的创建
java·开发语言·数据库