Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
soso196819 分钟前
DataWorks快速入门
大数据·数据仓库·信息可视化
The_Ticker25 分钟前
CFD平台如何接入实时行情源
java·大数据·数据库·人工智能·算法·区块链·软件工程
java1234_小锋30 分钟前
Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客31 分钟前
Elasticsearch 开放推理 API 增加了对 IBM watsonx.ai Slate 嵌入模型的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
我的运维人生31 分钟前
Elasticsearch实战应用:构建高效搜索与分析平台
大数据·elasticsearch·jenkins·运维开发·技术共享
企鹅侠客36 分钟前
ETCD调优
数据库·etcd
Json_1817901448042 分钟前
电商拍立淘按图搜索API接口系列,文档说明参考
前端·数据库
大数据编程之光1 小时前
Flink Standalone集群模式安装部署全攻略
java·大数据·开发语言·面试·flink
B站计算机毕业设计超人1 小时前
计算机毕业设计SparkStreaming+Kafka旅游推荐系统 旅游景点客流量预测 旅游可视化 旅游大数据 Hive数据仓库 机器学习 深度学习
大数据·数据仓库·hadoop·python·kafka·课程设计·数据可视化
煎饼小狗1 小时前
Redis五大基本类型——Zset有序集合命令详解(命令用法详解+思维导图详解)
数据库·redis·缓存