Hadoop简介及单点伪分布式安装

目录

  • [1. 大数据](#1. 大数据)
  • [2. Hadoop简介](#2. Hadoop简介)
  • [3. Hadoop伪分布式安装](#3. Hadoop伪分布式安装)
  • [4. Hadoop启动](#4. Hadoop启动)
  • 参考

1. 大数据

  大数据的定义:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合。

  特征:

  1.海量的数据规模

  2.快速的数据流转

  3.多样的数据类型

  4.价值密度低

  上述特征可以缩小成5个特点:大量、高速、多样、价值、真实性。

2. Hadoop简介

  Hadoop是一个由Apache软件基金会开发的分布式系统基础架构,它实现了一个分布式文件系统HDFS。HDFS具有高容错性,可以部署在价格低廉的硬件上,能提供高吞吐量来访问应用程序的数据。Hadoop的另一个核心设计就是MapReduce,MapReduce为海量的数据提供了计算。

3. Hadoop伪分布式安装

  我推荐看Hadoop官网的单点伪分布式安装,一定要完成Pseudo-Distributed Operation中的配置。

  这里我推荐使用Docker,我已经制作好了一个单点伪分布式的Hadoop镜像。拉取该镜像的命令:docker pull mengsui/single_node_hadoop:4.0

  使用该镜像运行容器的命令:docker run -d --gpus all -p 8080:8080 -p 8088:8088 -p 9870:9870 mengsui/single_node_hadoop:4.0(我在其中配置了nvidia-container-toolkit,可以使用宿主机的GPU)。

  9870是WebHDFS的端口,8088是 YARN ResourceManager Web UI的端口,8080是code-server(vscode网页版的端口)。

4. Hadoop启动

  启动命令:start-dfs.sh start-yarn.sh

  关闭命令:stop-dfs.sh stop-yarn.sh

  检查启动是否成功:jps。启动成功,在jps命令下会显示ResourceManager、DataNode、SecondaryNameNode、NameNode、NodeManager。

  启动完后,直接点击8088和9870端口的连接,即可进入如下界面。

参考

吴章勇 杨强著 大数据Hadoop3.X分布式处理实战

相关推荐
奇点爆破XC5 小时前
Hadoop大数据生态(Ambari管理)组件服务详解
大数据·hadoop·ambari
段一凡-华北理工大学9 小时前
工业领域的Hadoop架构学习~系列文章22:Hadoop生态展望 - 面向未来的技术演进
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
Nefu_lyh9 小时前
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
数据仓库·hive·hadoop
知识分享小能手10 小时前
Hadoop学习教程,从入门到精通, HDFS分布式文件系统 — 完整知识点与案例代码(3)
hadoop·学习·hdfs
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
Francek Chen1 天前
【大数据处理与分析】MapReduce:05 MapReduce的具体应用
大数据·hadoop·分布式·mapreduce
知识分享小能手1 天前
Hadoop学习教程,从入门到精通, 部署Hadoop 3.x — 知识点详解(2)
大数据·hadoop·学习
AQin10121 天前
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
数据仓库·hive·hadoop·doris
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章19:能源行业Hadoop应用实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
知识分享小能手2 天前
Hadoop学习教程,从入门到精通, 初识Hadoop — 知识点详解(1)
大数据·hadoop·学习