Spark,HDFS概述

HDFS组成构架:


注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传
1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

root@hadoop100 hadoop-3.1.3\]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt 注意到,它会把本地的文件删除掉。 2.如果要保留本地的文件,可以使用 -put 命令。具体如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo shell操作文件下载 下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。 基本格式是: hadoop fs -get (服务器上的文件路径 本地文件路径) 示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。 对应的命令: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt 其他shell操作 1.显示目录信息。 使用-ls命令,示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -ls / 上面的命令用来查看根目录(/)下的文件。 2.创建文件夹。 使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mkdir /jinguo 3.显示文件内容。 使用-cat命令。示例如下: \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cat /sanguo/shuguo.txt 3.拷贝文件。 使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo 4.移动文件。 使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo 5.删除文件或文件夹。 使用-rm 命令,它的格式是: -rm 要删除的文件 \[root@hadoop100 hadoop-3.1.3\]$ hadoop fs -rm /sanguo/shuguo.txt 6.递归删除。 使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -rm -r /sanguo 7.统计文件夹的大小信息。使用命令 -du。示例如下 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo 27 81 /jinguo 这个文件夹下面的文件信息 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo 14 42 /jinguo/shuguo.txt 7 21 /jinguo/weiguo.txt 6 18 /jinguo/wuguo.txt 说明:27表示文件大小;81表示27\*3个副本;/jinguo表示查看的目录 8. -setrep:设置HDFS中文件的副本数量 \[root@hadoop102 hadoop-3.1.3\]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 效果如下 ![](https://i-blog.csdnimg.cn/direct/f4856e0935914d6dbe6a4ddb3e984de4.png)

相关推荐
毕设源码-郭学长9 小时前
【开题答辩全过程】以 Python基于大数据的四川旅游景点数据分析与可视化为例,包含答辩的问题和答案
大数据·python·数据分析
顧棟9 小时前
【HDFS实战】HADOOP 机架感知能力-HDFS
大数据·hadoop·hdfs
亚林瓜子11 小时前
AWS中国云中的ETL之从aurora搬数据到s3(Glue版)
hadoop·spark·云计算·etl·aws
程序员果子13 小时前
Kafka 深度剖析:架构演进、核心概念与设计精髓
大数据·运维·分布式·中间件·架构·kafka
isfox13 小时前
Hadoop RPC深度解析:分布式通信的核心机制
大数据
猎板PCB黄浩13 小时前
PCB 半固化片:被忽视的成本控制关键,猎板的技术选型与安全适配策略
大数据·网络·人工智能
stjiejieto14 小时前
从工具到生产力:2025 年 “人工智能 +” 的产业落地全景与价值重构
大数据·人工智能·重构
说私域14 小时前
基于定制开发开源AI智能名片S2B2C商城小程序的文案信息传达策略研究
大数据·人工智能·小程序
涤生大数据17 小时前
从MR迁移到Spark3:数据倾斜与膨胀问题的实战优化
数据库·数据仓库·spark·mapreduce·大数据开发·数据倾斜·spark3
深蓝易网17 小时前
3C电子企业柔性制造转型:如何通过MES管理系统实现快速换线与弹性生产?
大数据·运维·人工智能·重构·制造