【hadoop】HDFS

HDFS

操作HDFS

操作HDFS有三种方式,分别是 使用Web Console网页工具命令行Java API

Web Console 网页工具

操作NameNode

NameNode:端口50070

访问地址:IP/dfshealth.html

在summary中,值得关注的是 safemode is off ,说明HDFS的安全模式是关闭的,如果是打开的,那么HDFS是处于只读的状态,不能进行操作HDFS。

下面是HDFS启动过程,比较重要

操作SecondaryNameNode

端口:50090

访问地址:Ip:50090/status.html

命令行

1、普通的操作命令:hdfs dfs ****

-mkdir 在HDFS中创建目录

java 复制代码
hdfs dfs -mkdir /aaa
hdfs dfs -mkdir -p /bbb/ccc 如果父目录不存在,使用-p参数先创建父目录

-ls 查询HDFS的某个目录

-ls -R 查询HDFS的某个目录,包含子目录,简写:-lsr

-put 上传数据

-copyFromLocal 上传数据

-moveFromLocal 上传数据,本质ctrl+x 剪切

-copyToLocal 下载数据

-get 下载数据

-rm 删除目录

-rmr 删除目录,包含子目录

-getmerge:先把某个目录下的文件合并,再下载

demo:

java 复制代码
[root@bigdata111 ~]# vi student01.txt
java 复制代码
[root@bigdata111 ~]# vi student02.txt
java 复制代码
[root@bigdata111 ~]# hdfs dfs -mkdir /students
[root@bigdata111 ~]# hdfs dfs -put student0* /students
[root@bigdata111 ~]# hdfs dfs -ls /students
Found 2 items
-rw-r--r--   1 root supergroup         19 2020-02-24 10:19 /students/student01.txt
-rw-r--r--   1 root supergroup         10 2020-02-24 10:19 /students/student02.txt
[root@bigdata111 ~]# hdfs dfs -getmerge /students ./allstudents.txt

-cp:拷贝 hdfs dfs -cp /input/data.txt /input/data2.txt

-mv:剪切

-count:举例 hdfs dfs -count /students 查看文件的个数

-du:类似-count,更详细

java 复制代码
hdfs dfs -du /students
结果:
19  /students/student01.txt
10  /students/student02.txt

-text、-cat 查看文本文件的内容

java 复制代码
hdfs dfs -cat /students/student01.txt

balancer:平衡操作

2、管理的命令:hdfs dfsadmin ****

-report:hdfs dfsadmin -report

-safemode 安全模式

java 复制代码
[root@bigdata111 ~]# hdfs dfsadmin -safemode
Usage: hdfs dfsadmin [-safemode enter | leave | get | wait]
[root@bigdata111 ~]# hdfs dfsadmin -safemode get
Safe mode is OFF
[root@bigdata111 ~]# hdfs dfsadmin -safemode enter
Safe mode is ON
[root@bigdata111 ~]# hdfs dfs -mkdir /xyz
mkdir: Cannot create directory /xyz. Name node is in safe mode.
[root@bigdata111 ~]# hdfs dfsadmin -safemode leave
Safe mode is OFF

Java API

操作需要包含的jar包:

powershell 复制代码
$HADOOP_HOME/share/hadoop/common/*.jar
$HADOOP_HOME/share/hadoop/common/lib/*.jar
$HADOOP_HOME/share/hadoop/hdfs/*.jar
$HADOOP_HOME/share/hadoop/hdfs/lib/*.jar

方式:
Java API连接HDFS并创建文件夹
使用Java API 上传下载数据
使用Java API获取HDFS的元信息

HDFS的原理解析

数据上传的过程

数据下载的过程

HDFS的高级特性

回收站

默认回收站是关闭的,可以通过在 core-site.xml 中添加 fs.trash.interval 来打开幵配置时间阀值。

xml 复制代码
<property>
	<name>fs.trash.interval</name>
	<value>1440</value>
</property>

可以设置一个时间阈值,当回收站里文件的存放时间超过返个阈值,就被彻底删除,并且释放占用的数据块,比如上面就设置了一个1440分钟的阀值。


从回收站里恢复文件

配额Quota

名称配额

名称配额:规定的是某个HDFS目录下文件的个数,

比如:设置名称配额是N,表示只能在该目录下存放N-1个文件或者目录

java 复制代码
hdfs dfsadmin [-setQuota <quota> <dirname>...<dirname>]
hdfs dfsadmin [-clrQuota <dirname>...<dirname>]

举例:

java 复制代码
hdfs dfs -mkdir /t1 

设置该目录的名称配额是3,所以该目录下只能放两个文件或文件夹。

java 复制代码
hdfs dfsadmin -setQuota 3 /t1 

空间配额

空间配额:规定的是某个HDFS目录下文件的大小

比如:设置某个HDFS目录的空间配额是200M,只能存放200M以下的文件

java 复制代码
hdfs dfsadmin [-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>]
hdfs dfsadmin [-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>]

举例:

java 复制代码
hdfs dfs -mkdir /t2

设置该目录的空间配额是1M (逻辑单位)

java 复制代码
hdfs dfsadmin -setSpaceQuota 1M /t2

上传一个超过1M,大小为50M的文件,会发生下面的错误:

java 复制代码
The DiskSpace quota of /t2 is exceeded: quota = 1048576 B = 1 MB but diskspace consumed = 134217728 B = 128 MB

由于是50M文件,占用一个数据块,所以会提示128M。

快照Snapshot

一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。(本质:就是cp命令)

安全模式 SafeMode

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。如果HDFS处于

安全模式,则表示HDFS是只读状态。

安全模式的作用:当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。(数据块是否满足冗余度的要求)

假设我们设置的副本数/冗余度(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999。我们的副本率0.6明显小于0.99,因此系统会自动的复制副本到其他的dataNode,使得副本率不小于0.999.如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多余的3个副本。

java 复制代码
hdfs dfsadmin -safemode get 查看安全模式状态
hdfs dfsadmin -safemode enter 进入安全模式状态
hdfs dfsadmin -safemode leave 离开安全模式

权限管理:类似Linux

HDFS的集群

集群的两大功能和解决方式:

(1)负载均衡:联盟Federation

(2)失败迁移(单点故障):HA

注意:联盟是HDFS特有的,但HA是主从架构共有的

HDFS的底层原理:Java程序(记得重新修改)

1、Java的代理对象Proxy

案例:利用Java的代理对象实现数据库的连接池。

(1)通过连接池返回一个Connection对象

(2)使用完后,connection.close,把该连接直接还给数据库

(3)重写close方法,把该连接还给数据库的连接池

准备实验环境:MySQL的数据库

如何安装MySQL,在Hive的时候,再介绍

2、RPC协议(remote procedure call远程过程调用)

相关推荐
@insist1238 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师8 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记8 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局9 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客11 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy201411 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹11 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251811 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI12 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟13 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能