HDFS基本操作命令

这里写目录标题

HDFS Shell CLI客户端

说明

  • hdfs shell cli支持操作多种文件系统,包括本地文件系统(file:///),分布式文件系统(hdfs:nn:8020)等
  • 操作的是什么文件系统取决于URL种的前缀协议
  • 如果没有指定前缀,则将会读取环境变量汇总的fs.defaultFS属性,以该属性作为默认文件系统
    • hdfs dfs -ls file:/// #操作本地文件系统
    • hdfs dfs -ls hdfs://node1:8020/ #草足hdfs分布式文件系统
    • hdfs dfs -ls / #直接根目录,没有指定协议,将夹在读取fs.default FS

常用命令

hadoop fs -mkdir [-p]

path 为待创建的目录

-p选项的行为与unix mkdir -p非常相似,他会沿着路径创建父目录

hadoop fs -ls [-h] [-R] [ ...]

path 指定目录路径

-h显示文件size

-R 递归查看指定目录及其子目录

上传文件到指定目录下

方法一:hadoop fs -put [-f] [-p] ...

-f 覆盖目标文件(已经存在)

-p保留访问和修改时间,所有圈和权限

localsrc 本地文件系统(客户端所在机器)

dst 目标文件系统(HDFS)

方法二:hadoop fs -moveFromLocal ...

和-put功能一样,只不过上传结束,源数据会被删除

复制代码
hadoop fs -moveFromLocal caixukun.csv /tmp/

查看HDFS文件内容

方法一:hadoop fs -cat ...

读取指定文件全部内容,显示在标准输出控制台

注意:对于大文件内容读取,慎重

方法二:hadoop fs -head

查看文件前1kb的内容

复制代码
hadoop fs -head /source/weibo/star/comment_log/29304839_node1.tcast.cn/caixukun.csv

方法三:hadoop fs -tail [-f]

查看文件最后1kb的内容

-f选择可以动态显示文件中追加的内容

复制代码
hadoop fs -tail -f  /source/weibo/star/comment_log/29304839_node1.tcast.cn/caixukun.csv

下载文件

方法一:hadoop fs -get [-f] [-p] ...

下载文件到本地文件系统指定目录,localdst必须是目录

-f覆盖目标文件(已存在下)

-p保留访问和修改时间,所有权和权限

方法二:合并下载hdfs文件

命令:hadoop fs -getmerge [-n1] [-skip-empty-file]

下载多个文件合并到本地文件系统的一个文本中

-n1选项表示在每个文件末尾添加换行符

拷贝文件

hadoop fs -cp [-f] ...

-f覆盖目标文件<已存在下>

追加数据到hdfs文件中

hadooToFile ...

dst如果文件不存在,将创建文件。

如果为空,则输入为从标准输入中读取

查看hdfs磁盘空间

hdaoop fs -df [-h] [ ...]
显示文件系统的容量,可用空间和已用空间

查看hdfs文件使用的空间

hadoop fs -du [-s] [-h] ...
-s:表示显示指定路径文件长度的汇总摘要,而不是单个文件的摘要

-h:选项将以"人类可读"的方式格式化文件大小

复制代码
hadoop fs -du -s -h -v /source/weibo/

hdfs数据移动操作

hadoop fs -mv ...

移动文件到指定文件夹下

可以使用该命令移动数据,重命名文件的名称

修改hdfs文件副本个数

hadoop fs -setrep [R] [-w] ...
修改指定文件的副本数
-R表示递归 修改文件夹及其所有
-w客户端是否等待副本修改完毕

相关推荐
天远Date Lab1 分钟前
Python实现用户消费潜力评估:天远个人消费能力等级API对接全攻略
java·大数据·网络·python
Elastic 中国社区官方博客7 小时前
使用 Elastic Cloud Serverless 扩展批量索引
大数据·运维·数据库·elasticsearch·搜索引擎·云原生·serverless
Dxy12393102168 小时前
Elasticsearch 8.13.4 内存占用过大如何处理
大数据·elasticsearch·搜索引擎
qq_124987075310 小时前
基于深度学习的蘑菇种类识别系统的设计与实现(源码+论文+部署+安装)
java·大数据·人工智能·深度学习·cnn·cnn算法
泰迪智能科技11 小时前
新疆高校大数据人工智能实验室建设案例
大数据·人工智能
Light6011 小时前
数据战争的星辰大海:从纷争到融合,五大核心架构的终局之战与AI新纪元
大数据·人工智能·数据治理·湖仓一体·数据中台·数据架构·选型策略
qq_3482318511 小时前
市场快评 · 今日复盘20251231
大数据
小北方城市网11 小时前
Python + 前后端全栈进阶课程(共 10 节|完整版递进式|从技术深化→项目落地→就业进阶,无缝衔接基础课)
大数据·开发语言·网络·python·数据库架构
喜欢编程的小菜鸡12 小时前
2025:中国大数据行业的“价值觉醒”之年——从规模基建到效能释放的历史性转折
大数据
策知道12 小时前
从“抗旱保苗”到“修渠引水”:读懂五年财政政策的变奏曲
大数据·数据库·人工智能·搜索引擎·政务