hadoop 集群的常用命令

以下是一些 Hadoop 集群的常用命令,包括针对 HDFS(Hadoop 分布式文件系统)和 MapReduce 作业等方面,且相对不太常见:

HDFS 权限相关:

  • 修改文件或目录的所有者: hdfs dfs -chown -R <owner>:\ <path> 。例如, hdfs dfs -chown -R hadoop:hadoop /user/hadoop/data , -R 选项用于递归修改目录及其子目录和文件的所有者。

  • 修改文件或目录的权限: hdfs dfs -chmod -R <mode> <path> 。比如, hdfs dfs -chmod -R 755 /user/hadoop/project , -R 同样用于递归操作, 755 是权限模式。

HDFS 统计信息:

  • 获取文件系统的统计信息: hdfs dfsadmin -report 。这个命令会显示集群中各个数据节点的信息,包括节点状态、存储使用情况等。

  • 显示文件或目录的磁盘空间使用情况: hdfs dfs -du -s -h <path> 。 -s 选项用于汇总指定路径下的总大小, -h 选项以人类可读的格式显示大小,如 hdfs dfs -du -s -h /user/hadoop/data 。

MapReduce 作业相关:

  • 查看 MapReduce 作业的计数器信息: yarn application -appInfo <applicationId> -counter 。可以通过作业 ID 查看作业运行过程中的各种计数器值,了解作业的执行情况。

  • 杀死一个 MapReduce 作业: yarn application -kill <applicationId> 。当发现作业异常或不需要继续运行时,可使用该命令终止作业。

Hadoop 守护进程管理:

  • 安全模式相关:进入安全模式 hdfs dfsadmin -safemode enter ,在安全模式下,HDFS 只允许读操作,用于维护集群状态;离开安全模式 hdfs dfsadmin -safemode leave 。

  • 重新加载 HDFS 的配置: hdfs dfsadmin -refreshNamenodes <datanode_host:port> 。当数据节点的配置发生变化时,可使用此命令让 NameNode 重新加载该数据节点的信息。

相关推荐
极光代码工作室13 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100913 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567313 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术113 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567314 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby14 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567315 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽15 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo15 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567315 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark