Spark,HDFS概述

HDFS组成构架:


注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传
1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

root@hadoop100 hadoop-3.1.3\]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt 注意到,它会把本地的文件删除掉。 2.如果要保留本地的文件,可以使用 -put 命令。具体如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo shell操作文件下载 下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。 基本格式是: hadoop fs -get (服务器上的文件路径 本地文件路径) 示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。 对应的命令: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt 其他shell操作 1.显示目录信息。 使用-ls命令,示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -ls / 上面的命令用来查看根目录(/)下的文件。 2.创建文件夹。 使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mkdir /jinguo 3.显示文件内容。 使用-cat命令。示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cat /sanguo/shuguo.txt 3.拷贝文件。 使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo 4.移动文件。 使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo 5.删除文件或文件夹。 使用-rm 命令,它的格式是: -rm 要删除的文件 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -rm /sanguo/shuguo.txt 6.递归删除。 使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -rm -r /sanguo 7.统计文件夹的大小信息。使用命令 -du。示例如下 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo 27 81 /jinguo 这个文件夹下面的文件信息 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo 14 42 /jinguo/shuguo.txt 7 21 /jinguo/weiguo.txt 6 18 /jinguo/wuguo.txt 说明:27表示文件大小;81表示27\*3个副本;/jinguo表示查看的目录 8. -setrep:设置HDFS中文件的副本数量 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 效果如下 ![](https://i-blog.csdnimg.cn/direct/f4856e0935914d6dbe6a4ddb3e984de4.png)

相关推荐
NeRF_er4 小时前
STORM代码阅读笔记
大数据·笔记·storm
TDengine (老段)8 小时前
TDengine 中 TDgp 中添加机器学习模型
大数据·数据库·算法·机器学习·数据分析·时序数据库·tdengine
希艾席帝恩9 小时前
拥抱智慧物流时代:数字孪生技术的应用与前景
大数据·人工智能·低代码·数字化转型·业务系统
Bar_artist9 小时前
离线智能破局,架构创新突围:RockAI与中国AI的“另一条车道”
大数据·人工智能
牛客企业服务11 小时前
2025校招AI应用:校园招聘的革新与挑战
大数据·人工智能·机器学习·面试·职场和发展·求职招聘·语音识别
鼠鼠我捏,要死了捏12 小时前
Spark Shuffle性能优化实践指南:提升大数据处理效率
性能优化·spark·shuffle
电商数据girl12 小时前
如何利用API接口与网页爬虫协同进行电商平台商品数据采集?
大数据·开发语言·人工智能·python·django·json
TDengine (老段)12 小时前
TDengine 中 TDgpt 异常检测的数据密度算法
java·大数据·算法·时序数据库·iot·tdengine·涛思数据
蚂蚁数据AntData12 小时前
DB-GPT 0.7.3 版本更新:支持Qwen3 Embedding和Reranker模型、支持知识库自定义检索策略等
大数据·开源·全文检索·数据库架构
暖苏13 小时前
python-异常(笔记)
大数据·开发语言·笔记·python·异常