Spark,HDFS概述

HDFS组成构架:


注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传
1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

root@hadoop100 hadoop-3.1.3\]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt 注意到,它会把本地的文件删除掉。 2.如果要保留本地的文件,可以使用 -put 命令。具体如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo shell操作文件下载 下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。 基本格式是: hadoop fs -get (服务器上的文件路径 本地文件路径) 示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。 对应的命令: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt 其他shell操作 1.显示目录信息。 使用-ls命令,示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -ls / 上面的命令用来查看根目录(/)下的文件。 2.创建文件夹。 使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mkdir /jinguo 3.显示文件内容。 使用-cat命令。示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cat /sanguo/shuguo.txt 3.拷贝文件。 使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo 4.移动文件。 使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo 5.删除文件或文件夹。 使用-rm 命令,它的格式是: -rm 要删除的文件 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -rm /sanguo/shuguo.txt 6.递归删除。 使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -rm -r /sanguo 7.统计文件夹的大小信息。使用命令 -du。示例如下 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo 27 81 /jinguo 这个文件夹下面的文件信息 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo 14 42 /jinguo/shuguo.txt 7 21 /jinguo/weiguo.txt 6 18 /jinguo/wuguo.txt 说明:27表示文件大小;81表示27\*3个副本;/jinguo表示查看的目录 8. -setrep:设置HDFS中文件的副本数量 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 效果如下 ![](https://i-blog.csdnimg.cn/direct/f4856e0935914d6dbe6a4ddb3e984de4.png)

相关推荐
码界筑梦坊2 小时前
基于Spark的抖音数据分析热度预测系统
大数据·信息可视化·数据分析·spark·毕业设计·个性化推荐
生信学习小达人4 小时前
arcgis10.8 Toolbox中没有找到conversion tools模块
大数据
Oo_Amy_oO5 小时前
Airflow+Spark/Flink vs. Kettle
大数据·flink·spark
后端小肥肠5 小时前
港大团队开源LightRAG:知识图谱+双层检索,复杂问答准确率飙升30%
大数据·人工智能·openai
计算机毕设定制辅导-无忧学长17 小时前
TDengine 权限管理与安全配置实战(二)
大数据·安全·tdengine
2401_8979300617 小时前
Kibana 连接 Elasticsearch(8.11.3)教程
大数据·elasticsearch·jenkins
计算机毕设定制辅导-无忧学长17 小时前
TDengine 快速上手:安装部署与基础 SQL 实践(一)
大数据·sql·tdengine
塔能物联运维18 小时前
塔能科技:精准节能,擎动工厂可持续发展巨轮
大数据·运维
青云交19 小时前
Java 大视界 -- 基于 Java 的大数据机器学习模型在图像识别中的迁移学习与模型优化(173)
大数据·迁移学习·图像识别·模型优化·deeplearning4j·机器学习模型·java 大数据