Hadoop 全套常用 Shell 命令完整版

Hadoop 全套常用 Shell 命令完整版,分为 HDFS 文件操作、YARN 任务管理、集群查看、本地启动关闭、常用运维命令,面试、日常开发直接背直接用。

一、HDFS 基础操作命令

1. 查看 HDFS 目录

bash

运行

复制代码
hdfs dfs -ls /
hdfs dfs -ls -R /    # 递归查看所有目录

2. 创建文件夹

bash

运行

复制代码
hdfs dfs -mkdir /test
hdfs dfs -mkdir -p /a/b/c   # 递归创建多级目录

3. 上传文件(本地 → HDFS)

bash

运行

复制代码
hdfs dfs -put 本地文件路径 /hdfs路径
hdfs dfs -copyFromLocal 本地文件 /hdfs路径

区别:

  • put:源文件上传后可删除
  • copyFromLocal:源文件保留

4. 下载文件(HDFS → 本地)

bash

运行

复制代码
hdfs dfs -get /hdfs文件 本地路径
hdfs dfs -copyToLocal /hdfs文件 本地路径

5. 查看文件内容

bash

运行

复制代码
hdfs dfs -cat /test/file.txt
hdfs dfs -tail /test/file.txt   # 查看文件末尾

6. 删除文件 / 文件夹

bash

运行

复制代码
hdfs dfs -rm /test/file.txt
hdfs dfs -rm -r /test          # 递归删除文件夹
hdfs dfs -rm -rf /test         # 强制删除

7. 复制、移动、重命名

bash

运行

复制代码
# HDFS内部复制
hdfs dfs -cp /a /b
# HDFS内部移动/重命名
hdfs dfs -mv /a /b

8. 查看文件大小

bash

运行

复制代码
hdfs dfs -du -h /

二、Hadoop 集群启动 & 关闭命令

1. 完整集群一键启动(Hadoop2.x/3.x 通用)

bash

运行

复制代码
start-all.sh

2. 一键关闭集群

bash

运行

复制代码
stop-all.sh

3. 分开启动(精细版)

bash

运行

复制代码
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

4. 分开关闭

bash

运行

复制代码
stop-dfs.sh
stop-yarn.sh

5. 查看集群所有进程(jps 必背)

bash

运行

复制代码
jps

正常完整进程:

  • NameNode
  • DataNode
  • ResourceManager
  • NodeManager
  • SecondaryNameNode

三、YARN 任务管理命令(跑 MR/Spark 任务必备)

1. 查看所有运行中的任务

bash

运行

复制代码
yarn application -list

2. 根据 applicationId 杀掉任务

bash

运行

复制代码
yarn application -kill application_xxxxxx

3. 查看任务详细日志

bash

运行

复制代码
yarn logs -applicationId application_xxxxxx

4. 查看 YARN 集群状态

bash

运行

复制代码
yarn node -list
yarn info

5. 运行自带 MapReduce 测试案例

bash

运行

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 2 5

计算圆周率,用来测试集群是否正常。


四、HDFS 运维常用命令

1. 查看 HDFS 整体状态、使用率

bash

运行

复制代码
hdfs dfsadmin -report

2. 安全模式相关

bash

运行

复制代码
# 离开安全模式(HDFS刚启动只读,需要手动退出)
hdfs dfsadmin -safemode leave
# 进入安全模式
hdfs dfsadmin -safemode enter
# 查看安全模式状态
hdfs dfsadmin -safemode get

3. 平衡数据块(DataNode 数据不均衡)

bash

运行

复制代码
hdfs balancer

4. 检查文件块损坏

bash

运行

复制代码
hdfs fsck /

五、简写习惯(开发常用缩写)

很多人直接简写:

bash

运行

复制代码
hadoop fs  =  hdfs dfs

两者几乎通用,日常敲 hdfs dfs 更标准。


六、高频面试速记总结

  1. HDFS 特点:一次写入多次读取、不支持随机修改、分块存储、3 副本、高容错
  2. 架构:NameNode (元数据) + DataNode (存数据)
  3. YARN 作用:资源调度,管 CPU 内存
  4. MapReduce 流程:Map → Shuffle 排序分组 → Reduce
  5. jps 五个进程必背
  6. 上传put、下载get、删rm -r、建目录mkdir -p
相关推荐
大大大大晴天2 天前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰7773 天前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天3 天前
Hudi技术内幕:Metadata Table原理与实践
大数据
Flynt4 天前
npm v12 来了:allowScripts 默认关闭,我的项目差点跑不起来
安全·npm·node.js
大大大大晴天4 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术4 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB4 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
JuliusDeng6 天前
一文搞懂 `.npmrc`:npm 源、SSL 与 `_authToken` 配置避坑
npm·前端工程化
大大大大晴天8 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB8 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生