Hadoop 全套常用 Shell 命令完整版

Hadoop 全套常用 Shell 命令完整版,分为 HDFS 文件操作、YARN 任务管理、集群查看、本地启动关闭、常用运维命令,面试、日常开发直接背直接用。

一、HDFS 基础操作命令

1. 查看 HDFS 目录

bash

运行

复制代码
hdfs dfs -ls /
hdfs dfs -ls -R /    # 递归查看所有目录

2. 创建文件夹

bash

运行

复制代码
hdfs dfs -mkdir /test
hdfs dfs -mkdir -p /a/b/c   # 递归创建多级目录

3. 上传文件(本地 → HDFS)

bash

运行

复制代码
hdfs dfs -put 本地文件路径 /hdfs路径
hdfs dfs -copyFromLocal 本地文件 /hdfs路径

区别:

  • put:源文件上传后可删除
  • copyFromLocal:源文件保留

4. 下载文件(HDFS → 本地)

bash

运行

复制代码
hdfs dfs -get /hdfs文件 本地路径
hdfs dfs -copyToLocal /hdfs文件 本地路径

5. 查看文件内容

bash

运行

复制代码
hdfs dfs -cat /test/file.txt
hdfs dfs -tail /test/file.txt   # 查看文件末尾

6. 删除文件 / 文件夹

bash

运行

复制代码
hdfs dfs -rm /test/file.txt
hdfs dfs -rm -r /test          # 递归删除文件夹
hdfs dfs -rm -rf /test         # 强制删除

7. 复制、移动、重命名

bash

运行

复制代码
# HDFS内部复制
hdfs dfs -cp /a /b
# HDFS内部移动/重命名
hdfs dfs -mv /a /b

8. 查看文件大小

bash

运行

复制代码
hdfs dfs -du -h /

二、Hadoop 集群启动 & 关闭命令

1. 完整集群一键启动(Hadoop2.x/3.x 通用)

bash

运行

复制代码
start-all.sh

2. 一键关闭集群

bash

运行

复制代码
stop-all.sh

3. 分开启动(精细版)

bash

运行

复制代码
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

4. 分开关闭

bash

运行

复制代码
stop-dfs.sh
stop-yarn.sh

5. 查看集群所有进程(jps 必背)

bash

运行

复制代码
jps

正常完整进程:

  • NameNode
  • DataNode
  • ResourceManager
  • NodeManager
  • SecondaryNameNode

三、YARN 任务管理命令(跑 MR/Spark 任务必备)

1. 查看所有运行中的任务

bash

运行

复制代码
yarn application -list

2. 根据 applicationId 杀掉任务

bash

运行

复制代码
yarn application -kill application_xxxxxx

3. 查看任务详细日志

bash

运行

复制代码
yarn logs -applicationId application_xxxxxx

4. 查看 YARN 集群状态

bash

运行

复制代码
yarn node -list
yarn info

5. 运行自带 MapReduce 测试案例

bash

运行

复制代码
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi 2 5

计算圆周率,用来测试集群是否正常。


四、HDFS 运维常用命令

1. 查看 HDFS 整体状态、使用率

bash

运行

复制代码
hdfs dfsadmin -report

2. 安全模式相关

bash

运行

复制代码
# 离开安全模式(HDFS刚启动只读,需要手动退出)
hdfs dfsadmin -safemode leave
# 进入安全模式
hdfs dfsadmin -safemode enter
# 查看安全模式状态
hdfs dfsadmin -safemode get

3. 平衡数据块(DataNode 数据不均衡)

bash

运行

复制代码
hdfs balancer

4. 检查文件块损坏

bash

运行

复制代码
hdfs fsck /

五、简写习惯(开发常用缩写)

很多人直接简写:

bash

运行

复制代码
hadoop fs  =  hdfs dfs

两者几乎通用,日常敲 hdfs dfs 更标准。


六、高频面试速记总结

  1. HDFS 特点:一次写入多次读取、不支持随机修改、分块存储、3 副本、高容错
  2. 架构:NameNode (元数据) + DataNode (存数据)
  3. YARN 作用:资源调度,管 CPU 内存
  4. MapReduce 流程:Map → Shuffle 排序分组 → Reduce
  5. jps 五个进程必背
  6. 上传put、下载get、删rm -r、建目录mkdir -p
相关推荐
renhongxia12 小时前
从内部进行大型语言模型安全
大数据·人工智能·安全·语言模型·自然语言处理·逻辑回归
源码之家2 小时前
计算机毕业设计:Python股票数据分析与ARIMA预测系统 Flask框架 ARIMA 数据分析 可视化 大数据 大模型(建议收藏)✅
大数据·python·数据挖掘·数据分析·django·flask·课程设计
JoyCong19982 小时前
告别频繁输入密码!ToDesk自动解锁功能,实现远程办公“无感”连接
大数据·linux·服务器·网络·电脑·远程操作
Y学院2 小时前
AI原生研发爆发,Agent重构软件产业新范式
大数据·人工智能
北冥有羽Victoria2 小时前
Django Auth组件完整版教程:从原理到项目落地
大数据·服务器·数据库·后端·python·django·sqlite
lifewange2 小时前
Hadoop 完整入门详解
大数据·hadoop·分布式
Irene19912 小时前
Oracle 21c XE 大数据开发常用 SQL 语法总结(不同 Oracle 版本,sql 语法大部分通用)
大数据·sql·oracle
rADu REME11 小时前
探索Spring Cloud Config:构建高可用的配置中心
大数据·elasticsearch·搜索引擎
xcbrand12 小时前
政府事业机构品牌策划公司找哪家
大数据·人工智能·python