Hadoop:单机伪分布式部署

目录

一、配置安装环境

[1.1 环境要求](#1.1 环境要求)

[1.2 配置环境](#1.2 配置环境)

二、单机伪分布式部署

[2.1 下载hadoop](#2.1 下载hadoop)

[2.2 解压hadoop](#2.2 解压hadoop)

[2.3 配置hadoop环境](#2.3 配置hadoop环境)

[2.4 配置 hadoop-env.sh 文件](#2.4 配置 hadoop-env.sh 文件)

[2.5 配置 core-site.xml 文件](#2.5 配置 core-site.xml 文件)

[2.6 配置 hdfs-site.xml 文件](#2.6 配置 hdfs-site.xml 文件)

[2.7 格式化文件系统](#2.7 格式化文件系统)

[2.8 启动dfs](#2.8 启动dfs)

[2.9 浏览器访问](#2.9 浏览器访问)

三、Hadoop常用命令

[3.1 HDFS 命令](#3.1 HDFS 命令)

[3.2 其他命令](#3.2 其他命令)


一、配置安装环境

1.1 环境要求

  • GNU/Linux系统
  • JDK1.8及以上,hadoop3.4支持jdk17上运行
  • 免密登录

1.2 配置环境

  • 安装jdk

可参考搭建环境02:安装前准备(配置CentOS7)_centos 安装 yum-CSDN博客本篇中安装jdk部分安装。

  • 配置免密登录
bash 复制代码
  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

二、单机伪分布式部署

2.1 下载hadoop

bash 复制代码
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.4.1/hadoop-3.4.1.tar.gz

2.2 解压hadoop

bash 复制代码
tar -zxvf hadoop-3.4.1.tar.gz -C /data/opt/
ln -s /data/opt/hadoop-3.4.1 /data/opt/hadoop

2.3 配置hadoop环境

vi ~/.bash_profile

bash 复制代码
# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs
JAVA_HOME=/data/opt/jdk
SPARK_HOME=/data/opt/spark
HADOOP_HOME=/data/opt/hadoop
PATH=$PATH:$HOME/.local/bin:$HOME/bin:$JAVA_HOME/bin:$SPARK_HOME/sbin:$SPARK_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export PATH JAVA_HOME SPARK_HOME HADOOP_HOME

2.4 配置 hadoop-env.sh 文件

修改hadoop-env.sh文件,配置JAVA_HOME目录:

bash 复制代码
  # set to the root of your Java installation
  export JAVA_HOME=/data/opt/jdk

2.5 配置 core-site.xml 文件

XML 复制代码
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <!-- 指定 hadoop 运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/db/hadoop</value>
    </property>
</configuration>

2.6 配置 hdfs-site.xml 文件

XML 复制代码
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
     <!-- NameNode 数据存储目录-->
     <property>
         <name>dfs.namenode.name.dir</name>
         <value>file://${hadoop.tmp.dir}/name</value>
     </property>
     <!-- DataNode 数据存储目录-->
     <property>
         <name>dfs.datanode.data.dir</name>
         <value>file://${hadoop.tmp.dir}/data</value>
     </property>
</configuration>

2.7 格式化文件系统

bash 复制代码
$ bin/hdfs namenode -format

2.8 启动dfs

bash 复制代码
$ sbin/start-dfs.sh

2.9 浏览器访问

三、Hadoop常用命令

3.1 HDFS 命令

  • 查看文件
bash 复制代码
hdfs dfs -ls /path:列出指定目录下的文件和子目录信息
hdfs dfs -cat /path/to/file:显示文件内容
  • 创建目录
bash 复制代码
hdfs dfs -mkdir -p /path/to/directory:创建一个或多个层级的目录
  • 上传文件
bash 复制代码
hdfs dfs -put localfile /user/hadoop/hadoopfile:将本地文件复制到 HDFS 中
hdfs dfs -copyFromLocal localfile /user/hadoop/hadoopfile:等同于-put,将本地文件复制到 HDFS
  • 下载文件
bash 复制代码
hdfs dfs -get /user/hadoop/hadoopfile localfile:将 HDFS 文件复制到本地文件系统
hdfs dfs -copyToLocal /user/hadoop/hadoopfile localfile:等同于-get,将 HDFS 文件复制到本地
  • 删除文件或目录
bash 复制代码
hdfs dfs -rm /path/to/file:删除文件
hdfs dfs -rm -r /path/to/directory:递归删除目录及其所有内容
  • 移动文件
bash 复制代码
hdfs dfs -mv /old/path /new/path:移动或重命名文件
  • 查看文件状态
bash 复制代码
​hdfs dfs -stat [format] /path/to/file:以指定格式输出文件的状态信息
  • 更改文件权限
bash 复制代码
hdfs dfs -chmod 755 /path/to/file:更改文件权限
  • 更改文件所有者
bash 复制代码
hdfs dfs -chown user:group /path/to/file:更改文件的所有者和组

3.2 其他命令

  • 格式化 NameNode
bash 复制代码
hdfs namenode -format:首次启动集群前格式化 NameNode。
  • 启动和停止 Hadoop 集群
bash 复制代码
start-dfs.sh 和 stop-dfs.sh:分别启动和停止 HDFS
相关推荐
IvanCodes1 小时前
六、Sqoop 导出
大数据·hadoop·sqoop
G探险者1 小时前
《深入理解 Nacos 集群与 Raft 协议》系列五:为什么集群未过半,系统就不可用?从 Raft 的投票机制说起
分布式·后端
G探险者1 小时前
《深入理解 Nacos 集群与 Raft 协议》系列一:为什么 Nacos 集群必须过半节点存活?从 Raft 协议说起
分布式·后端
G探险者1 小时前
《深入理解 Nacos 集群与 Raft 协议》系列四:日志复制机制:Raft 如何确保提交可靠且幂等
分布式·后端
G探险者1 小时前
《深入理解 Nacos 集群与 Raft 协议》系列三:日志对比机制:Raft 如何防止数据丢失与错误选主
分布式·后端
G探险者1 小时前
《深入理解 Nacos 集群与 Raft 协议》系列二:Raft 为什么要“选主”?选主的触发条件与机制详解
分布式·后端
代码匠心2 小时前
从零开始学Flink:揭开实时计算的神秘面纱
java·大数据·后端·flink
weixin_472339462 小时前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
归去_来兮3 小时前
图神经网络(GNN)模型的基本原理
大数据·人工智能·深度学习·图神经网络·gnn