Hadoop的概述

1、Hadoop的发展史:

Google首先发布三篇文章:GFS(Google File System)、Mapreduce(计算引擎)、Bigtable

,随着时间的推移:

hadoop1.0与2.0 的区别是在2.0的版本中出现了yarn,主要是负责资源的调度,hadoop2.0与3.0的主要的区别就是:3.0版本开始支持GPU

2、什么是Hadoop?

Hadoop是一个基于海量数据的分布式存储和分布式计算的平台。

3、Hadoop的三大组件:
1、Hdfs:

是一种分布式文件系统,主要的作用是存储数据。

2、Yarn:

作业调度和集群资源管理的框架,主要的作用是负责资源的分配。

3、MapReduce:

基于YARN的系统,用于并行处理大型数据集,是大数据中的计算框架。

4、名词科普:
服务器(节点):

企业里任务和程序基本都是运行在服务器上。服务器内存和cpu以及硬盘等资源和性能远高于pc机,可以将其理解为一台台的计算机。

机架:

一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群 负责存放服务器的架子。

相关推荐
陌上丨7 分钟前
Redis的Key和Value的设计原则有哪些?
数据库·redis·缓存
AI_567818 分钟前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
ccecw35 分钟前
Mysql ONLY_FULL_GROUP_BY模式详解、group by非查询字段报错
数据库·mysql
JH307339 分钟前
达梦数据库与MySQL的核心差异解析:从特性到实践
数据库·mysql
CRzkHbaXTmHw39 分钟前
探索Flyback反激式开关电源的Matlab Simulink仿真之旅
大数据
数据知道1 小时前
PostgreSQL 核心原理:如何利用多核 CPU 加速大数据量扫描(并行查询)
数据库·postgresql
七夜zippoe1 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥1 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
忆~遂愿2 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
忆~遂愿2 小时前
GE 引擎与算子版本控制:确保前向兼容性与图重写策略的稳定性
大数据·开发语言·docker