Hadoop复习(二)

部署Hadoop

考试不考部署,就复习选择和大题

问题 1 单项选择

2 / 2 分

下面哪个是MapReduce的核心配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

问题 2 单项选择

2 / 2 分

下面哪个是HDFS的核心配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

问题 3 单项选择

2 / 2 分

下面哪一个不属于Hadoop的部署模式

单机模式

JVM模式

伪分布式模式

完全分布式模式

问题 4 多项选择

2 / 2 分

启动YARN进程后我们可以看到哪些进程?

NameNode

DataNode

SecordaryNameNode

ResourceManager

NodeManager

问题 5 单项选择

2 / 2 分

HDFS URI我们可以从下面哪个配置文件中查看到

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

问题 6 多项选择

2 / 2 分

启动HDFS进程后我们可以看到哪些进程?

NameNode

DataNode

SecondaryNameNode

ResourceManager

NodeManager

问题 7 单项选择

2 / 2 分

启动HDFS进程的命令是哪个?

start-dfs.sh

start-yarn.sh

stop-dfs.sh

stop-yarn.sh

问题 8 单项选择

2 / 2 分

关闭HDFS进程的命令是哪个?

start-dfs.sh

start-yarn.sh

stop-dfs.sh

stop-yarn.sh

问题 9 单项选择

2 / 2 分

关闭YARN进程的命令是哪个?

start-dfs.sh

start-yarn.sh

stop-dfs.sh

stop-yarn.sh

问题 10 单项选择

2 / 2 分

启动YARN进程的命令是哪个?

start-dfs.sh

start-yarn.sh

stop-dfs.sh

stop-yarn.sh

问题 11 单项选择

2 / 2 分

下面哪个是Hadoop的核心配置文件

正确!

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

问题 12 单项选择

2 / 2 分

下面哪个是YARN的核心配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

简要说明Hadoop的三种模式

独立模式:独立模式是一种在单台计算机的单个JVM进程中模拟Hadoop集群的工作模式,该模式部署的Hadoop集群实际上并不属于分布式文件系统,而是直接读写本地操作系统的文件系统,此模式部署的Hadoop通常用于快速安装并体验Hadoop的功能,并不适用于实际生产环境

伪分布式:伪分布式模式是一种在单台计算机的不同JVM进程中运行Hadoop集群的工作模式,该模式部署的Hadoop集群实际上是一个为分布式系统,因为Hadoop集群的所以守护进程都运行在一台计算机中,并不能体现出分布式的特点,所以伪分布式模式部署的Hadoop通常用于开发环境中进行测试和调试,并不适用于实际生产环境。

完全分布式:完全分布式模式是一种在多台计算机的JVM进程中运行Hadoop集群的工作模式,该模式部署的Hadoop集群属于分布式系统,因为Hadoop集群的每个守护进程都运行在不同的计算机中,所以完全分布式模式部署的Hadoop通常可作为实际生产环境

词频统计

Hadoop格式化
hadoop namenode -format

启动Hadoop
start-all.sh

创建文件word.txt,内容如下:
Hello world
Hello Hadoop
Bye worldBye Hadoop

上传至HDFS的根目录下
hdfs dfs -put word.txt /

统计词频
cd /opt/hadoop/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /word.txt /out

查看结果目录
hdfs dfs -ls /out

这时可看到两个文件,分别是SUCCESS和part-r-00000

统计结果文件即是part-r-00000

查看结果
hdfs dfs -cat /out/part-r-80080

相关推荐
数翊科技1 天前
深度解析 HexaDB分布式 DDL 的全局一致性
分布式
Sylvan Ding1 天前
度量空间数据管理与分析系统——大数据泛构课程作业-2025~2026学年. 毛睿
大数据·深圳大学·大数据泛构·度量空间数据管理与分析系统·毛睿·北京理工大学珠海校区
面向Google编程1 天前
Flink源码阅读:JobManager的HA机制
大数据·flink
Tony Bai1 天前
【分布式系统】03 复制(上):“权威中心”的秩序 —— 主从架构、一致性与权衡
大数据·数据库·分布式·架构
汽车仪器仪表相关领域1 天前
全自动化精准检测,赋能高效年检——NHD-6108全自动远、近光检测仪项目实战分享
大数据·人工智能·功能测试·算法·安全·自动化·压力测试
大厂技术总监下海1 天前
根治LLM胡说八道!用 Elasticsearch 构建 RAG,给你一个“有据可查”的AI
大数据·elasticsearch·开源
石像鬼₧魂石1 天前
22端口(OpenSSH 4.7p1)渗透测试完整复习流程(含实战排错)
大数据·网络·学习·安全·ubuntu
TDengine (老段)1 天前
TDengine Python 连接器进阶指南
大数据·数据库·python·物联网·时序数据库·tdengine·涛思数据
数据猿1 天前
【金猿CIO展】如康集团CIO 赵鋆洲:数智重塑“顶牛”——如康集团如何用大数据烹饪万亿肉食产业的未来
大数据
txinyu的博客1 天前
HTTP服务实现用户级窗口限流
开发语言·c++·分布式·网络协议·http