0202hdfs的shell操作-hadoop-大数据学习

文章目录

    • [1 进程启停管理](#1 进程启停管理)
    • [2 文件系统操作命令](#2 文件系统操作命令)
      • [2.1 HDFS文件系统基本信息](#2.1 HDFS文件系统基本信息)
      • [2.2 介绍](#2.2 介绍)
      • [2.3 创建文件夹](#2.3 创建文件夹)
      • [2.4 查看指定文件夹下的内容](#2.4 查看指定文件夹下的内容)
      • [2.5 上传文件到HDFS](#2.5 上传文件到HDFS)
      • [2.6 查看HDFS文件内容](#2.6 查看HDFS文件内容)
      • [2.7 下载HDFS文件](#2.7 下载HDFS文件)
      • [2.8 HDFS数据删除操作](#2.8 HDFS数据删除操作)
    • [3 HDFS客户端-jetbrians产品插件](#3 HDFS客户端-jetbrians产品插件)
      • [3.1 Big Data Tools 安装](#3.1 Big Data Tools 安装)
      • [3.2 配置windows](#3.2 配置windows)
      • [3.3 配置Big Data Tools](#3.3 配置Big Data Tools)
    • 结语

以下命令执行默认配置了hadoop的环境变量,且使用新命令。

1 进程启停管理

  • 一键启停脚本

    shell 复制代码
    # 开启命令
    start-dfs.sh
    # 停止命令
    stop-dfs.sh
  • 独立进程启停

    shell 复制代码
    hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

2 文件系统操作命令

2.1 HDFS文件系统基本信息

HDFS作为分布式存储的文件系统,有其对数据的路径表达式。如果熟悉Linux文件系统,可以对比学习。

  • HDFS同Linux系统一样,均是以/作为根目录的组织形式

如何区分呢?

•Linux:file:/// 为linux的文件协议头

•HDFS:hdfs://为hdfs协议头

如上路径:

•Linux:file:///usr/local/hello.txt

•HDFS:hdfs://node1:8020/usr/local/hello.txt

协议头file:/// 或 hdfs://node1:8020/可以省略

•需要提供Linux路径的参数,会自动识别为file://

•需要提供HDFS路径的参数,会自动识别为hdfs://

除非你明确需要写或不写会有BUG,否则一般不用写协议头

2.2 介绍

关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系

•hadoop命令(老版本用法),用法:hadoop fs [generic options]

•hdfs命令(新版本用法),用法:hdfs dfs [generic options]

两者在文件系统操作上,用法完全一致

用哪个都可以

某些特殊操作需要选择hadoop命令或hdfs命令

讲到的时候具体分析

下面以新版本用户hdfs命令为例介绍

2.3 创建文件夹

语法:

shell 复制代码
hdfs dfs -mkdir [-p] <path> ...
  • mkdir:创建文件夹
  • -p:如果父目录不存在,创建
  • path:待创建的目录

示例:

shell 复制代码
hdfs dfs -mkdir -p /gaogzhen/bigdata

2.4 查看指定文件夹下的内容

语法:

shell 复制代码
hadfs -ls [-h] [-R] [<path> ...]
  • -h:人性化显示文件size
  • -R:递归查看指定目录及其子目录

示例:

shell 复制代码
hdfs dfs -ls -R /
[hadoop@node1 ~]$ hdfs dfs -ls -R /
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:44 /gaogzhen
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:46 /gaogzhen/bigdata
-rw-r--r--   3 hadoop supergroup         20 2023-08-30 20:46 /gaogzhen/bigdata/words.txt

2.5 上传文件到HDFS

语法:

shell 复制代码
hdfs dfs -put [-f] [-p] <src> ... <dst>
  • -f :覆盖目标文件(如果存在);
  • -p:保留访问和修改权限,所有权和权限;
  • src:本地文件系统
  • dst:目的文件系统(HDFS)

示例:

shell 复制代码
hdfs dfs -put -f words.txt /gaogzhen/bigdata

2.6 查看HDFS文件内容

语法:

shell 复制代码
hdfs dfs -cat <src> ...
  • 读取指定文件全部内容,显示在标准输出控制台

同Linux一样,可以配置more less 使用。

示例:

shell 复制代码
hdfs dfs -cat /gaogzhen/bigdata/words.txt
node1
node2
node3
`

2.7 下载HDFS文件

复制代码
hdfs dfs -get [-f] [-p] <src> ... <localdst>
  • 下载文件到本地文件系统指定目录,localdst必须是目录

  • -f 覆盖目标文件(已存在下)

  • -p 保留访问和修改时间,所有权和权限。

2.8 HDFS数据删除操作

shell 复制代码
hdfs dfs -rm -r [-skipTrash] URI [URI ...] 
  • 删除指定路径的文件或文件夹

    • -skipTrash 跳过回收站,直接删除

回收站功能默认关闭,如果要开启需要在core-site.xml内配置:

xml 复制代码
<property>

<name>fs.trash.interval</name>

<value>1440</value>

</property>

 

<property>

<name>fs.trash.checkpoint.interval</name>

<value>120</value>

</property>

无需重启集群,在哪个机器配置的,在哪个机器执行命令就生效。

回收站默认位置在:/user/用户名(hadoop)/.Trash

其他常用命令可以查看官网文档,这里不在一一介绍,属性Linux系统的话,这些命令都轻车熟路。

3 HDFS客户端-jetbrians产品插件

我们使用DataGrip来安装和配置插件。

3.1 Big Data Tools 安装

打开设置settings->plugins->搜索Big Data Tools->install,如下图所示:

安装之后,重启DataGrip。

3.2 配置windows

需要对Windows系统做一些基础设置,配合插件使用

  • 解压Hadoop安装包到Windows系统,如解压到:E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4

  • 设置$HADOOP_HOME环境变量指向:E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4

  • path中添加$HADOOP_HOME\bin

下载

可以自行下载,或从课程资料中获取

  • 将hadoop.dll和winutils.exe放入$HADOOP_HOME/bin中

加压报错如下图所示:

这个是Linux系统的软连接,不影响目前的功能,直接关闭即可

3.3 配置Big Data Tools

第一步:打开hdfs配置

第二步:配置hdfs

现在可以以图形化的形式对hdfs进行操作

HDFS客户端,以NFS 挂载客户端的形式自行查阅相关文档,这里不在演示。

结语

如果小伙伴什么问题或者指教,欢迎交流。

❓QQ:806797785

参考链接:

1\][大数据视频](https://www.bilibili.com/video/BV1WY4y197g7)\[CP/OL\].2020-04-16.

相关推荐
L耀早睡几秒前
mapreduce打包运行
大数据·前端·spark·mapreduce
姬激薄6 分钟前
MapReduce打包运行
大数据·mapreduce
计算机人哪有不疯的9 分钟前
Mapreduce初使用
大数据·mapreduce
菜鸟冲锋号33 分钟前
Flink SQL、Hudi 、Doris在数据上的组合应用
大数据·flink
尘世壹俗人1 小时前
hadoop.proxyuser.代理用户.授信域 用来干什么的
大数据·hadoop·分布式
鸿乃江边鸟3 小时前
Starrocks的主键表涉及到的MOR Delete+Insert更新策略
大数据·starrocks·sql
maozexijr4 小时前
Flink 的任务槽和槽共享
大数据·flink
问道飞鱼5 小时前
【大数据知识】今天聊聊Clickhouse部署方案
大数据·clickhouse·部署
金融小师妹8 小时前
应用BERT-GCN跨模态情绪分析:贸易缓和与金价波动的AI归因
大数据·人工智能·算法
武子康8 小时前
大语言模型 10 - 从0开始训练GPT 0.25B参数量 补充知识之模型架构 MoE、ReLU、FFN、MixFFN
大数据·人工智能·gpt·ai·语言模型·自然语言处理