Hadoop安装部署-单机版

Apache Hadoop是一个使用HDFS(Hadoop Distributed File System)分布式文件系统执行可靠的、规模化的分布式计算的开源项目,Hadoop是使用Java语言开发,其运行在Linux操作系统上集群规模最大支持几千个分布式节点,本文主要描述Hadoop单机版的安装部署。

如上所示,HDFS分布式文件系统的架构图,其中,Namenode节点主要提供数据文件索引服务,Datanode节点主要提供数据分片的存储服务,Namenode服务支持多节点的高可用性部署,Datanode支持大规模的分布式集群部署,数据分片实现备份复制的高可用性机制

如上所示,一个用户数据文件可分为多个数据块存储在多个Datanode中,每个数据块拥有一个ID标识,每个数据块以备份复制的方式存储在不同的Datanode中实现高可用性,part-0文件分为1、3的数据块,每个数据块复制2份,part-1文件分为2、4、5的数据块,每个数据块复制3份,读取part-0文件的时候分别读取1、3数据块合并成完整的文件,读取part-1文件的时候分别读取2、4、5数据块合并成完整的文件

如上所示,从OpenJDK官方下载JDK8版本、从Hadoop官方下载最新的稳定版本

如上所示,安装与配置OpenJDK8

如上所示,使用Hadoop的样例MapReduce算法统计input文件夹的文件列表中,包含有匹配dfs[a-z.]+正则表达式的字符串的统计信息,该正则表达式匹配以字符串dfs为前缀、以a到z小写英文字母以及点号的任意组合为后缀的字符串,文件夹output输出中显示包括一个字符串dfsadmin

如上所示,设置Hadoop分布式文件系统的接口访问的地址

如上所示,设置Hadoop分布式文件系统的复制备份策略

如上所示,设置Hadoop分布式集群节点的ssh免密登录

如上所示,格式化Hadoop分布式文件系统

如上所示,配置Hadoop分布式文件系统的用户环境变量

如上所示,启动Hadoop分布式文件系统服务,其中,包括NameNode服务以及DataNode服务

如上所示,查看Hadoop分布式文件系统服务的端口使用,其中,9870端口是web平台服务,9000端口是分布式文件系统的平台服务,9866端口是DataNode提供的服务

如上所示,在Hadoop分布式文件系统中新建用户目录

如上所示,在Hadoop分布式文件系统中执行MapReduce计算,输出到output文件夹中

如上所示,停止Hadoop分布式文件系统服务

如上所示,配置Hadoop分布式文件系统的YARN资源管理器

如上所示,配置Hadoop分布式文件系统的YARN资源管理器的用户环境变量

如上所示,启动Hadoop分布式文件系统的YARN资源管理器服务

如上所示,停止Hadoop分布式文件系统的YARN资源管理器服务

相关推荐
安科瑞小许19 分钟前
35kV变电站的“智慧大脑”——综合自动化系统
大数据·网络·变电站·零碳园区
相九辞39 分钟前
系统运维第1期:什么是系统运维?
大数据
tian_jiangnan1 小时前
Flink checkopint使用教程
大数据·flink
武子康1 小时前
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
大数据·hadoop·后端
Elastic 中国社区官方博客1 小时前
将 Logstash 管道从 Azure Event Hubs 迁移到 Kafka 输入插件
大数据·数据库·elasticsearch·microsoft·搜索引擎·kafka·azure
北京软秦科技有限公司1 小时前
IA-Lab AI 检测报告生成助手:双碳目标驱动下的检测机构效率引擎,重塑报告生成与合规审核新模式
大数据·人工智能
GlobalInfo2 小时前
全球与中国通用快速连接器(Universal Quick Connector) 市场报告:2026 年布局实战指南
大数据·人工智能·物联网
运维有小邓@2 小时前
如何检测 Active Directory 中的身份与访问风险?
大数据·运维·网络
QYR-分析2 小时前
MPPT控制器行业解析:技术迭代与市场机遇前瞻
大数据·人工智能
EasyGBS2 小时前
国标GB28181视频分析平台EasyGBS视频质量诊断重塑工业园区监控智能运维新生态
大数据·网络·音视频