Hadoop集群的常用命令涵盖了文件系统操作、作业管理、集群监控等多个方面。以下是一些常用的Hadoop命令及其用途:
文件系统操作
Hadoop分布式文件系统(HDFS)是Hadoop的核心组件之一,以下命令用于管理HDFS中的文件和目录。
hadoop fs -ls <path>
列出指定路径下的文件和目录。
hadoop fs -mkdir <path>
在HDFS中创建目录。
hadoop fs -put <local_path> <hdfs_path>
将本地文件或目录上传到HDFS。
hadoop fs -get <hdfs_path> <local_path>
将HDFS中的文件或目录下载到本地。
hadoop fs -rm <path>
删除HDFS中的文件或目录。
hadoop fs -cat <path>
查看HDFS中文件的内容。
作业管理
Hadoop MapReduce是Hadoop的另一个核心组件,以下命令用于管理MapReduce作业。
hadoop jar <jar_file> <main_class> <input_path> <output_path>
提交一个MapReduce作业。
hadoop job -list
列出当前正在运行和已完成的作业。
hadoop job -kill <job_id>
终止指定的MapReduce作业。
hadoop job -status <job_id>
查看指定作业的状态。
集群监控
以下命令用于监控Hadoop集群的状态和性能。
hadoop dfsadmin -report
查看HDFS集群的状态报告,包括节点信息、存储使用情况等。
hadoop dfsadmin -safemode enter
将HDFS集群进入安全模式,此时只能读取数据,不能写入。
hadoop dfsadmin -safemode leave
将HDFS集群退出安全模式,恢复正常读写操作。
hadoop fsck <path>
检查HDFS中指定路径的文件系统健康状况。
其他常用命令
hadoop version
查看Hadoop的版本信息。
hadoop classpath
查看Hadoop的类路径。
hadoop namenode -format
格式化HDFS的NameNode,通常在首次启动Hadoop集群时使用。
启动/停止服务
- start-dfs.sh
启动HDFS
- stop-dfs.sh
停止HDFS
- start-yarn.sh
启动YARN
- stop-yarn.sh
停止YARN