Hadoop的介绍与安装

1 Hadoop的简介

Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。 Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

MapReduce是一个分布式计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

2 Hadoop的特点

Hadoop是一个能够让用户轻松搭建和使用的分布式计算平台,能够让用户轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop的主要特点如下。

**1)高可靠性。**Hadoop的数据存储有多个备份,集群部署在不同机器上,可以防止一个节点宕机造成集群损坏。当数据处理请求失败时,Hadoop将自动重新部署计算任务。

**2)高扩展性。**Hadoop是在可用的计算机集群间分配数据并完成计算任务的。为集群添加新的节点并不复杂,因此可以很容易地对集群进行节点的扩展。

**3)高效性。**Hadoop可以在节点之间动态地移动数据,在数据所在节点进行并行处理,并保证各个节点的动态平衡,因此处理速度非常快。

**4)高容错性。**Hadoop的分布式文件系统HDFS在存储文件时将在多台机器或多个节点上存储文件的备份副本,当读取该文件出错或某一台机器宕机时,系统会调用其他节点上的备份文件,保证程序顺利运行。

**5)低成本。**Hadoop是开源的,即不需要支付任何费用即可下载并安装使用,节省了购买软件的成本。

**6)可构建在廉价机器上。**Hadoop不要求机器的配置达到极高的标准,大部分普通商用服务器即可满足要求,通过提供多个副本和容错机制提高集群的可靠性。

**7)Hadoop基本框架是基于Java语言编写的。**Hadoop是一个基于Java语言开发的框架,因此运行在Linux系统上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,如C++和Python。

3、windows上安装Hadoop.

下载对应源码

链接:源码下载提取码:0103https://pan.baidu.com/s/1tywqdaSJgjN-WYbIW_72WQ

1、安装JDK

安装JDK详情https://blog.csdn.net/qq_57335683/article/details/134750327?spm=1001.2014.3001.5502

2、配置环境变量

(配置HADOOP_HOME,环境变量path添加%HADOOP_HOME%\bin)

添加环境变量名:HADOOP_HOME

变量值: 源码路径(根据自己的改变)

在Path中添加:%HADOOP_HOME%\bin

3、使用快捷键win+R后输入cmd确认->弹出dos界面输入set确认是否配置成功。

输入hadoop version验证环境变量

4、对hadoop-2.7.1\etc\hadoop\hadoop-env.cmd中JDK路径进行修改:下面路径修改为jdk安装路径

5、对hadoop-2.7.1\etc\hadoop\hdfs-site.xml的路径进行修改

红线是项目路径地址,后面保持一致不变。

6、从项目路径\hadoop-2.7.1\bin下拷贝hadoop.dll到 C:\Windows\System32 。

以管理员身份打开命令提示符

输入hdfs namenode -format,看到如下所示就说明format成功

7、转到hadoop-2.7.1\sbin文件下,输入start-all,启动hadoop集群

输入jps - 可以查看运行的所有节点

会出现下面四个窗口表示启动hadoop集群成功

访问http://localhost:50070,访问hadoop的web界面

访问http://localhost:8088,访问yarn的web界面,有就表明已经成功

8、停止运行的所有节点的命令stop-all

相关推荐
武子康7 小时前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天8 小时前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康2 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
初次攀爬者3 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
武子康3 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP4 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库4 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟4 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人4 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长4 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计