配置Hadoop集群-上传文件

上传小文件

上传文件的时候,我们传一个大一点的(>128M),再传一个小一点的。对于大一点的文件,我们要去看看它是否会按128M为单位去拆分这个大文件,而拆分成大文件之后,我们又怎么才能去还原?

下面我们来看具体操作:
打开hadoop100:9870,点击上传,选择我们需要上传的文件(建议选择一个简单的文本文件),上传之后的结果如下:
命令格式如下:

hadoop fs -put 要上传的文件 目标位置

下面我们上传一个小文件,你可以自己去找一个文本文件,或者自己创建一个都可以。cd

上传小文件(小于128M)

root@hadoop100 \~$ hadoop fs -mkdir /input

root@hadoop100 \~ hadoop fs -put HADOOP_HOME/wcinput/word.txt /input

上传大文件(大于128M)

root@hadoop100 \~$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
上传文件后查看文件存放在什么位置

在我们上一节的hadoop配置中,我们设置了保持文件的目录是/data,所以,我们进入hadoop的按照目录下的data中去看一看。

这个存储的目录特别深,大概类似于:/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

文件的名称是blk_xxx。我们可以使用cat命令查看HDFS在磁盘存储文件内容:

root@hadoop102 subdir0$ cat blk_1073741825

hadoop yarn

hadoop mapreduce

root

root
上传大文件

前面我们上传了一个小文件,可以看到这个文件太小,hadoop被没有被切分成小块。接下来我们传一个大一点的文件,例如jdk的安装包。(注意,你可以上传一些别的文件,但是务必确保大小是大于128M)
我们把它保存在集群的根目录。

上传完成之后,我们去查看,很明显大文件被分块了,128M一块,一共有两个块。可以通过cat >> 命令把两个块的内容拼接到一起,然后再去解压缩一下。

类似于如下:

-rw-rw-r--. 1 root root 134217728 5月 23 16:01 blk_1073741836

-rw-rw-r--. 1 root root 1048583 5月 23 16:01 blk_1073741836_1012.meta

-rw-rw-r--. 1 root root 63439959 5月 23 16:01 blk_1073741837

-rw-rw-r--. 1 root root 495635 5月 23 16:01 blk_1073741837_1013.meta

root@hadoop102 subdir0$ cat blk_1073741836>>tmp.tar.gz

root@hadoop102 subdir0$ cat blk_1073741837>>tmp.tar.gz

root@hadoop102 subdir0$ tar -zxvf tmp.tar.gz

相关推荐
得物技术2 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子2 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树883 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1233 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能3 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
王小王-1233 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
ApacheSeaTunnel3 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574093 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室3 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民3 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag