HDFS Hadoop分布式文件存储系统整体概述

HDFS

整体概述举例:

包括机架 rack1、rack2 包括5个Datanode,一个Namenode(主角色 )带领5个Datanode(从角色 ),每一个rack中包含不同的block模块文件为分块存储模式 。块与块之间通过replication进行副本备份 ,进行冗余存储,Namenode对存储的元数据进行记录 。该架构可以概括为一个抽象统一的目录树结构

  1. 主从架构

    HDFS集群是标准的master/slave主从架构群,一般一个HDFS集群有一个Namenode和一定数目的Datanode组成,Namenode是HDFS主节点(维护元数据),Datanode(管理数据块)是HDFS从节点,两种角色共同完成分布式文件的存储服务。

  2. 分块存储

    HDFS中文件在物理上是分块存储的,每一块默认大小是128M,不足128M则自身为一块。

    块的大小可以通过配置参数来规定,位于hdfs-default.xml中,dfs.blocksize。

  3. 副本机制

    文件的每个block都会有副本,副本系数可以在文件创建的时候指定,也可以在之后通过命令改变,副本数量由参数dfs.replication控制,默认数为3,连同本身共三块副本。

  4. 元数据(解释型数据)管理

    HDFS中元数据包括两种类型:

    1)文件自身属性信息:文件名称、权限,修改时间、文件大小、复制因子、数据块大小。

    2)文件块位置映射信息:记录文件块和Datenode之间的映射信息,即哪个块位于哪个节点上。

  5. 抽象目录树(namespace)

    即传统的层次文件组织结构。用户可以创建目录,然后将文件保存在目录中,Namenode负责维护文件系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被Namenode记录下。

  6. 数据块存储

    文件各个block的具体存储管理由DataNode节点承担,每一个block都可以在多个DataNode上存储。

常用操作

文件系统的shell命令 hadoop fs generic options

hadoop fs -ls file:/// #操作本地文件系统

hadoop fs -ls hdfs://node1:8020/ #操作HDFS分布文件系统

hadoop fs -ls / #直接根目录,没有指定协议,将加载读取fs.defaultFS

​ 2.创建文件夹 hadoop fs -mkdir -p ... (-p 沿着路径创建父目录)

​ 3.查看指定目录下内容 hadoop fs -ls -h -R ... (path 指定目录路径、-h 人性化显示文件size、 -R递归查看指定目录及其子目录)

​ 4.上传文件到HDFS指定目录下 hadoop fs -put -f -p ... ( -f覆盖目标文件【已经存在下】,-p保留访问和修改时间,所有权和权限,localsrc本地文件系统, dst目标文件系统)

​ 5.查看HDFS文件内容 hadoop fs -cat ... 读取指定文件全部内容,显示在标准输出控制台。

​ 6.下载HDFS文件 hadoop fs -get -f -p ... (下载文件到本地文件系统指定目录, localdst必须是目录, -f 覆盖目标文件 -p保留访问和修改时间,所有权和权限)

​ 7.拷贝HDFS文件 hadoop fs -cp -f ...(-f 覆盖目标文件)

​ 8.追加数据到HDFS文件中 hadoop fs -appendToFile ...(将所有给定本地文件的内容追加到给定dst文件,dst如果不存在,将创建该文件)

工作流程

  1. 管道传输
  2. ACK校验
  3. 副本原则
相关推荐
kyle~1 小时前
DDS分布式实时系统---自省机制
开发语言·分布式·机器人·c#·接口·ros2
q21030633722 小时前
kafka启动几秒后挂了,重启多次无果
分布式·kafka
凯源智能2 小时前
工商业分布式光伏箱变智能监控落地实战
分布式·箱变测控·光伏箱变测控装置·箱变监控系统·箱式变测控装置
沂水弦音3 小时前
软控 EI 系列模块优势与竞品对比分析:面向 EtherCAT 分布式 I/O 的工程选型视角
分布式·制造·工业自动化·ethercat·io模块
王小王-1234 小时前
基于 Hadoop + Flask 的电动汽车数据分析与可视化系统设计与实现
hadoop·数据分析·flask·电动汽车·新能源汽车数据分析·新能源汽车销量分析·新能源汽车销售分析
木心术14 小时前
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。
大数据·分布式·spark
kuokay4 小时前
MLOps 与 AIOps 的核心概
人工智能·分布式·大模型·agent·llama
openFuyao4 小时前
openFuyao InferNex:云原生分布式 LLM 推理加速套件——从生产痛点到算力的极致释放
分布式·云原生·ai原生·openfuyao·多样化算力
王小王-1234 小时前
基于机器学习与Hadoop的心脏病数据分析与可视化设计与实现
hadoop·机器学习·数据分析·心脏病预测
知识分享小能手4 小时前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)
大数据·hadoop·学习