Hadoop 全套常用 Shell 命令完整版

Hadoop 全套常用 Shell 命令完整版，分为 HDFS 文件操作、YARN 任务管理、集群查看、本地启动关闭、常用运维命令，面试、日常开发直接背直接用。

一、HDFS 基础操作命令

1. 查看 HDFS 目录

bash

运行

复制代码

hdfs dfs -ls /
hdfs dfs -ls -R /    # 递归查看所有目录

2. 创建文件夹

bash

运行

复制代码

hdfs dfs -mkdir /test
hdfs dfs -mkdir -p /a/b/c   # 递归创建多级目录

3. 上传文件（本地 → HDFS）

bash

运行

复制代码

hdfs dfs -put 本地文件路径 /hdfs路径
hdfs dfs -copyFromLocal 本地文件 /hdfs路径

区别：

put：源文件上传后可删除
copyFromLocal：源文件保留

4. 下载文件（HDFS → 本地）

bash

运行

复制代码

hdfs dfs -get /hdfs文件 本地路径
hdfs dfs -copyToLocal /hdfs文件 本地路径

5. 查看文件内容

bash

运行

复制代码

hdfs dfs -cat /test/file.txt
hdfs dfs -tail /test/file.txt   # 查看文件末尾

6. 删除文件 / 文件夹

bash

运行

复制代码

hdfs dfs -rm /test/file.txt
hdfs dfs -rm -r /test          # 递归删除文件夹
hdfs dfs -rm -rf /test         # 强制删除

7. 复制、移动、重命名

bash

运行

复制代码

# HDFS内部复制
hdfs dfs -cp /a /b
# HDFS内部移动/重命名
hdfs dfs -mv /a /b

8. 查看文件大小

bash

运行

复制代码

hdfs dfs -du -h /

二、Hadoop 集群启动 & 关闭命令

1. 完整集群一键启动（Hadoop2.x/3.x 通用）

bash

运行

复制代码

start-all.sh

2. 一键关闭集群

bash

运行

复制代码

stop-all.sh

3. 分开启动（精细版）

bash

运行

复制代码

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

4. 分开关闭

bash

运行

复制代码

stop-dfs.sh
stop-yarn.sh

5. 查看集群所有进程（jps 必背）

bash

运行

复制代码

jps

正常完整进程：

NameNode
DataNode
ResourceManager
NodeManager
SecondaryNameNode

三、YARN 任务管理命令（跑 MR/Spark 任务必备）

1. 查看所有运行中的任务

bash

运行

复制代码

yarn application -list

2. 根据 applicationId 杀掉任务

bash

运行

复制代码

yarn application -kill application_xxxxxx

3. 查看任务详细日志

bash

运行

复制代码

yarn logs -applicationId application_xxxxxx

4. 查看 YARN 集群状态

bash

运行

复制代码

yarn node -list
yarn info

5. 运行自带 MapReduce 测试案例

bash

运行

复制代码

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 2 5

计算圆周率，用来测试集群是否正常。

四、HDFS 运维常用命令

1. 查看 HDFS 整体状态、使用率

bash

运行

复制代码

hdfs dfsadmin -report

2. 安全模式相关

bash

运行

复制代码

# 离开安全模式（HDFS刚启动只读，需要手动退出）
hdfs dfsadmin -safemode leave
# 进入安全模式
hdfs dfsadmin -safemode enter
# 查看安全模式状态
hdfs dfsadmin -safemode get

3. 平衡数据块（DataNode 数据不均衡）

bash

运行

复制代码

hdfs balancer

4. 检查文件块损坏

bash

运行

复制代码

hdfs fsck /

五、简写习惯（开发常用缩写）

很多人直接简写：

bash

运行

复制代码

hadoop fs  =  hdfs dfs

两者几乎通用，日常敲 hdfs dfs 更标准。

六、高频面试速记总结

HDFS 特点：一次写入多次读取、不支持随机修改、分块存储、3 副本、高容错
架构：NameNode (元数据) + DataNode (存数据)
YARN 作用：资源调度，管 CPU 内存
MapReduce 流程：Map → Shuffle 排序分组 → Reduce
jps 五个进程必背
上传put、下载get、删rm -r、建目录mkdir -p