Hadoop 全套常用 Shell 命令完整版

Hadoop 全套常用 Shell 命令完整版,分为 HDFS 文件操作、YARN 任务管理、集群查看、本地启动关闭、常用运维命令,面试、日常开发直接背直接用。

一、HDFS 基础操作命令

1. 查看 HDFS 目录

bash

运行

复制代码
hdfs dfs -ls /
hdfs dfs -ls -R /    # 递归查看所有目录

2. 创建文件夹

bash

运行

复制代码
hdfs dfs -mkdir /test
hdfs dfs -mkdir -p /a/b/c   # 递归创建多级目录

3. 上传文件(本地 → HDFS)

bash

运行

复制代码
hdfs dfs -put 本地文件路径 /hdfs路径
hdfs dfs -copyFromLocal 本地文件 /hdfs路径

区别:

  • put:源文件上传后可删除
  • copyFromLocal:源文件保留

4. 下载文件(HDFS → 本地)

bash

运行

复制代码
hdfs dfs -get /hdfs文件 本地路径
hdfs dfs -copyToLocal /hdfs文件 本地路径

5. 查看文件内容

bash

运行

复制代码
hdfs dfs -cat /test/file.txt
hdfs dfs -tail /test/file.txt   # 查看文件末尾

6. 删除文件 / 文件夹

bash

运行

复制代码
hdfs dfs -rm /test/file.txt
hdfs dfs -rm -r /test          # 递归删除文件夹
hdfs dfs -rm -rf /test         # 强制删除

7. 复制、移动、重命名

bash

运行

复制代码
# HDFS内部复制
hdfs dfs -cp /a /b
# HDFS内部移动/重命名
hdfs dfs -mv /a /b

8. 查看文件大小

bash

运行

复制代码
hdfs dfs -du -h /

二、Hadoop 集群启动 & 关闭命令

1. 完整集群一键启动(Hadoop2.x/3.x 通用)

bash

运行

复制代码
start-all.sh

2. 一键关闭集群

bash

运行

复制代码
stop-all.sh

3. 分开启动(精细版)

bash

运行

复制代码
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

4. 分开关闭

bash

运行

复制代码
stop-dfs.sh
stop-yarn.sh

5. 查看集群所有进程(jps 必背)

bash

运行

复制代码
jps

正常完整进程:

  • NameNode
  • DataNode
  • ResourceManager
  • NodeManager
  • SecondaryNameNode

三、YARN 任务管理命令(跑 MR/Spark 任务必备)

1. 查看所有运行中的任务

bash

运行

复制代码
yarn application -list

2. 根据 applicationId 杀掉任务

bash

运行

复制代码
yarn application -kill application_xxxxxx

3. 查看任务详细日志

bash

运行

复制代码
yarn logs -applicationId application_xxxxxx

4. 查看 YARN 集群状态

bash

运行

复制代码
yarn node -list
yarn info

5. 运行自带 MapReduce 测试案例

bash

运行

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 2 5

计算圆周率,用来测试集群是否正常。


四、HDFS 运维常用命令

1. 查看 HDFS 整体状态、使用率

bash

运行

复制代码
hdfs dfsadmin -report

2. 安全模式相关

bash

运行

复制代码
# 离开安全模式(HDFS刚启动只读,需要手动退出)
hdfs dfsadmin -safemode leave
# 进入安全模式
hdfs dfsadmin -safemode enter
# 查看安全模式状态
hdfs dfsadmin -safemode get

3. 平衡数据块(DataNode 数据不均衡)

bash

运行

复制代码
hdfs balancer

4. 检查文件块损坏

bash

运行

复制代码
hdfs fsck /

五、简写习惯(开发常用缩写)

很多人直接简写:

bash

运行

复制代码
hadoop fs  =  hdfs dfs

两者几乎通用,日常敲 hdfs dfs 更标准。


六、高频面试速记总结

  1. HDFS 特点:一次写入多次读取、不支持随机修改、分块存储、3 副本、高容错
  2. 架构:NameNode (元数据) + DataNode (存数据)
  3. YARN 作用:资源调度,管 CPU 内存
  4. MapReduce 流程:Map → Shuffle 排序分组 → Reduce
  5. jps 五个进程必背
  6. 上传put、下载get、删rm -r、建目录mkdir -p
相关推荐
AC赳赳老秦5 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
QYR-分析5 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
微擎应用6 小时前
全渠道批发订货商城小程序管理系统
大数据·小程序
卷毛迷你猪7 小时前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs
头歌实践平台9 小时前
招聘大数据可视化
大数据·python
头歌实践平台9 小时前
Hadoop开发环境搭建
java·大数据·hadoop
Alter12309 小时前
从“力大砖飞”到“拟态共生”,新华三定义AI基础设施的系统级进化
大数据·运维·人工智能
2501_928817129 小时前
大模型如何决定推荐谁?拆解精准触达的底层算法工艺
大数据
ApacheSeaTunnel10 小时前
AI 让 SeaTunnel 读源码和调试过时了吗?
大数据·ai·开源·数据集成·seatunnel·技术分享·数据同步