大数据- Hadoop入门

目录

[🐶2.1 hadoop的简介](#🐶2.1 hadoop的简介)

[1. 概述](#1. 概述)

[2. 什么是分布式?](#2. 什么是分布式?)

[3. Hadoop的指代](#3. Hadoop的指代)

[🐶2.2 hadoop的发展历程](#🐶2.2 hadoop的发展历程)

[🐶2.3 hadoop的版本介绍](#🐶2.3 hadoop的版本介绍)

[🐶2.4 hadoop的常用端口号](#🐶2.4 hadoop的常用端口号)

[🐶2.5 hadoop的设计目的](#🐶2.5 hadoop的设计目的)

[🐶2.6 hadoop的优势](#🐶2.6 hadoop的优势)

[1. 高可靠性](#1. 高可靠性)

[2. 高扩展性](#2. 高扩展性)

[3. 高效性](#3. 高效性)

[4. 高容错性](#4. 高容错性)

[5. 低成本](#5. 低成本)


🐶2**.1** hadoop 的简介

1. 概述

Hadoop是一个对大量数据进行分布式处理的软件框架

前文我们提到大数据 主要解决海量数据的采集、存储和分析计算问题。其中Hadoop 框架 主要解决海量数据的存储和分析计算问题

  • HDFS (hadoop distribute file system) - 分布式文件系统,解决海量数据的存储问题

  • MR (MapReduce) - 分离聚合式运算系统,分布式运算系统,解决海量数据的分析计算问题

  • YARN - 分布式资源调度系统

2. 什么是 分布式

分布式指的是在多态计算机上协同工作以完成某个任务的过程

假设你有一本非常厚的书需要复印。如果你只有一台复印机,复制整本书将需要很长时间。现在,想象一下有十台复印机,每台都可以复制书中的一部分。你可以让每台复印机同时工作,每台复印机复制其中的一小部分,然后将它们组合在一起。这样,整个过程会比只用一台复印机快得多。

在这个比喻中,每台复印机就好比分布式系统中的一个计算节点(node),而整个过程就是分布式处理。每个节点都独立地执行任务的一部分,最后将它们的结果合并起来形成最终的输出。这种分布式方式可以大大提高处理速度和系统的可伸缩性。

在Hadoop中,分布式处理的核心思想是将大量的数据分成小块,并在多台计算机上并行处理这些数据块。这样可以更快地完成任务,同时也提高了系统的容错性,因为即使某个计算节点出现故障,其他节点仍然可以继续工作。这种分布式处理模型使得Hadoop能够有效地处理大规模数据集。

什么叫分布式?化整为零

3. Hadoop 的指代

狭义上来说,hadoop就是单独指代hadoop这个软件,

广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

------Hadoop生态圈:hbase、hive、spark、flink、yarn、flume...

Hadoop生态的图例:

🐶2**.2** hadoop 的发展历程

1. 起源(2004-2006):

Hadoop的起源可以追溯到2004年,由道格·切宾(Doug Cutting)和迈克尔·卡福曼(Mike Cafarella)等人开发。最初,Hadoop是为了支持Nutch项目,这是一个开源的网络搜索引擎。切宾基于Google的论文《MapReduce: Simplified Data Processing on Large Clusters》和《The Google File System》的思想,开发了Hadoop分布式文件系统(HDFS)和MapReduce编程模型。

2. Apache Hadoop 项目(2006年):

2006年,Hadoop成为Apache软件基金会的项目。这一时期,Hadoop的社区逐渐壮大,吸引了许多贡献者和用户。

3. Hadoop 1.x版本(2006-2012):

Hadoop 1.x版本是最早的稳定版本,包括HDFS和MapReduce。在这个阶段,Hadoop开始被广泛应用于处理大规模数据和实现分布式计算。

4. Hadoop 生态系统扩展(2012年至今):

2012年,Hadoop生态系统经历了扩展,引入了更多的组件和工具。一些重要的项目包括:

  • Hadoop 2.x版本: 引入了YARN(Yet Another Resource Negotiator),使Hadoop更灵活,能够支持不仅仅是MapReduce的计算模型。

  • Hive: 提供了类似SQL的查询语言,使用户能够通过类似于SQL的语法查询Hadoop中的数据。

  • Pig: 提供了一种类似脚本的语言,简化了在Hadoop上的数据处理。

  • HBase: 提供了一个分布式、面向列的NoSQL数据库。

  • Spark: 不仅替代了MapReduce,还引入了更多的内存计算,提高了性能。

5. Apache Hadoop 3.x版本(2017年至今):

Hadoop 3.x版本在性能、可靠性和扩展性方面进行了改进。它引入了一些新的特性,如Erasure Coding、支持GPU加速、Containerization等,以提升Hadoop的整体效能。

🐶2**.3** hadoop 的版本介绍

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

Apache Hadoop

官网地址:Apache Hadoop

下载地址:Index of /dist/hadoop/common

Cloudera Hadoop

官网地址:CDH Product Download

下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,ClouderaManager,Cloudera Support

(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。

(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

(5)Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。

Hortonworks Hadoop

官网地址:Enterprise Data Management Platforms & Products | Cloudera

下载地址:Product Downloads | Cloudera

(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。

(3)雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

(4)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

(5)HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。

(6)Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。

🐶2.4 hadoop的常用端口号

|-------------------|---------|
| 名称 | 端口号 |
| namenode内部通信端口 | 8020 |
| Namenode HTTP UI | 9870 |
| MapReduce查看执行任务端口 | 8088 |
| 历史服务器通信端口 | 19888 |

🐶2.5 hadoop 的设计目的

用户通过开发 分布式 程序,充分利用低廉价的硬件资源完成海量数据的 存储 运算 ,不仅仅能够完成数据的存储和运算,还要能保证数据的 安全性 可靠性

🐶2.6 hadoop 的优势

1. 高可靠性

Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2. 高扩展性

当存储hdp集群的存储能力和运算资源不足时,可以横向的扩展机器节点来达到扩容和增强运算能力

3. 高效性

因为它以并行的方式工作,通过并行处理加快处理速度

4. 高 容错性

Hadoop能够自动保存数据的多个副本,当有存储数据的节点宕机以后, 会自动的复制副本维持集群中副本的个数 ,并且能够自动将失败的任务重新分配。

5. 低成本

hadoop可以运行在廉价的机器上并行工作,达到高效,安全,效率于一身目的。

相关推荐
Acrel_WPP几秒前
分布式光伏智慧平台建设现场 系统集成商如何盈利
分布式
大山同学4 分钟前
DPGO:异步和并行分布式位姿图优化 2020 RA-L best paper
人工智能·分布式·语言模型·去中心化·slam·感知定位
小_太_阳1 小时前
hadoop_yarn详解
大数据·hadoop·yarn
Lyqfor1 小时前
云原生学习
java·分布式·学习·阿里云·云原生
Data-Miner1 小时前
大数据湖项目建设方案(100页WORD)
大数据·big data
流雨声2 小时前
2024-09-01 - 分布式集群网关 - LoadBalancer - 阿里篇 - 流雨声
分布式
floret*2 小时前
用pyspark把kafka主题数据经过etl导入另一个主题中的有关报错
分布式·kafka·etl
AI服务老曹2 小时前
不仅能够实现前后场的简单互动,而且能够实现人机结合,最终实现整个巡检流程的标准化的智慧园区开源了
大数据·人工智能·深度学习·物联网·开源
william8232 小时前
Information Server 中共享开源服务中 kafka 的__consumer_offsets目录过大清理
分布式·kafka·开源
P.H. Infinity3 小时前
【RabbitMQ】10-抽取MQ工具
数据库·分布式·rabbitmq