Spark,HDFS概述

HDFS组成构架:


注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传
1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

root@hadoop100 hadoop-3.1.3\]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt 注意到,它会把本地的文件删除掉。 2.如果要保留本地的文件,可以使用 -put 命令。具体如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo shell操作文件下载 下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。 基本格式是: hadoop fs -get (服务器上的文件路径 本地文件路径) 示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。 对应的命令: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt 其他shell操作 1.显示目录信息。 使用-ls命令,示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -ls / 上面的命令用来查看根目录(/)下的文件。 2.创建文件夹。 使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mkdir /jinguo 3.显示文件内容。 使用-cat命令。示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cat /sanguo/shuguo.txt 3.拷贝文件。 使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo 4.移动文件。 使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo 5.删除文件或文件夹。 使用-rm 命令,它的格式是: -rm 要删除的文件 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -rm /sanguo/shuguo.txt 6.递归删除。 使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -rm -r /sanguo 7.统计文件夹的大小信息。使用命令 -du。示例如下 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo 27 81 /jinguo 这个文件夹下面的文件信息 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo 14 42 /jinguo/shuguo.txt 7 21 /jinguo/weiguo.txt 6 18 /jinguo/wuguo.txt 说明:27表示文件大小;81表示27\*3个副本;/jinguo表示查看的目录 8. -setrep:设置HDFS中文件的副本数量 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 效果如下 ![](https://i-blog.csdnimg.cn/direct/f4856e0935914d6dbe6a4ddb3e984de4.png)

相关推荐
蓝天守卫者联盟18 分钟前
如何选择二氯甲烷回收设备厂家:技术路线与市场格局深度解析
大数据·人工智能·python·sqlite·tornado
xiaoduo AI11 分钟前
客服机器人能否支持自动排班与请假?Agent 系统支持人员替班,夜间无人值守该如何应
大数据·人工智能·机器人
紧固视界38 分钟前
2026上海紧固件专业展,紧固件设备集中展示平台
大数据·人工智能·上海紧固件展·紧固件展·上海紧固件专业展
DevOpenClub41 分钟前
全国三甲医院主体信息 API 接口
java·大数据·数据库
大喵桑丶1 小时前
ZABBIX7二次开发AI监控数据调取杂记
大数据·人工智能·python
DX_水位流量监测1 小时前
德希科技在线多参数七参传感器使用说明
大数据·水质监测·水质传感器·水质厂家·供水水质监测·在线多参数水质分析仪·水质七参
北京软秦科技有限公司1 小时前
物流运输环境检测进入AI报告审核时代:IACheck如何重塑报告精准性与全流程质量把控?
大数据·人工智能
xcLeigh2 小时前
KES数据库表空间目录自动创建特性详解与存储运维最佳实践
大数据·运维·服务器·数据库·表空间·存储
黎阳之光2 小时前
视频孪生领航者,以中国技术定义全球数智化新高度
大数据·人工智能·算法·安全·数字孪生
Francek Chen3 小时前
【大数据存储与管理】NoSQL数据库:01 NoSQL简介
大数据·数据库·分布式·nosql