Hadoop3.x学习笔记

文章目录

  • 一、Hadoop入门
    • 1、Hadoop概述
      • [1.1 简介](#1.1 简介)
      • [1.2 hadoop优势](#1.2 hadoop优势)
      • [1.3 hadoop组成](#1.3 hadoop组成)
      • [1.4 大数据技术生态体系](#1.4 大数据技术生态体系)
    • 2、环境准备(重点)
      • [2.1 模板机配置](#2.1 模板机配置)
      • [2.2 模板创建](#2.2 模板创建)
    • 3、本地运行模式(官方WordCount)
    • 4、Hadoop集群搭建(🌟重点)
      • [4.1 环境准备(集群分发脚本xsync)](#4.1 环境准备(集群分发脚本xsync))
      • [4.2 SSH免密配置](#4.2 SSH免密配置)
      • [4.3 集群配置](#4.3 集群配置)
      • [4.4 启动集群](#4.4 启动集群)
      • [4.5 配置历史服务器](#4.5 配置历史服务器)
      • [4.6 配置日志的聚集](#4.6 配置日志的聚集)
      • [4.7 集群启动/停止方式总结](#4.7 集群启动/停止方式总结)
      • [4.8 Hadoop集群常用脚本](#4.8 Hadoop集群常用脚本)
      • [4.9 常用端口号说明](#4.9 常用端口号说明)
      • [4.10 集群时间同步(可选)](#4.10 集群时间同步(可选))
  • 二、HDFS
    • 1、HDFS概述
      • [1.1 简介](#1.1 简介)
      • [1.2 HDFS优缺点](#1.2 HDFS优缺点)
      • [1.3 HDFS组成架构](#1.3 HDFS组成架构)
      • [1.4 HDFS文件块大小(面试重点)](#1.4 HDFS文件块大小(面试重点))
    • 2、HDFS的Shell操作(重点)
    • 3、HDFS的API操作
      • [3.1 环境准备](#3.1 环境准备)
      • [3.2 HDFS的API案例实操](#3.2 HDFS的API案例实操)
    • 4、HDFS的读写流程(面试重点)
      • [4.1 HDFS 写数据流程](#4.1 HDFS 写数据流程)
      • [4.2 HDFS 读数据流程](#4.2 HDFS 读数据流程)
    • [5、NameNode 和 SecondaryNameNode](#5、NameNode 和 SecondaryNameNode)
      • [5.1 NN和2NN工作机制](#5.1 NN和2NN工作机制)
      • [5.2 Fsimage和Edits解析](#5.2 Fsimage和Edits解析)
      • [5.3 CheckPoint时间设置](#5.3 CheckPoint时间设置)
    • 6、DataNode
      • [6.1 DataNode工作机制](#6.1 DataNode工作机制)
      • [6.2 数据完整性](#6.2 数据完整性)
      • [6.3 掉线时限参数设置](#6.3 掉线时限参数设置)
  • 三、MapReduce
    • 1、MapReduce概述
      • [1.1 MapReduce定义](#1.1 MapReduce定义)
      • [1.2 优缺点](#1.2 优缺点)
      • [1.3 MapReduce核心思想](#1.3 MapReduce核心思想)
      • [1.4 序列化类型与编程规范](#1.4 序列化类型与编程规范)
      • [1.5 WordCount案例实操](#1.5 WordCount案例实操)
    • 2、Hadoop序列化
      • [2.1 概述](#2.1 概述)
      • [2.2 自定义bean对象实现序列化接口(Writable)](#2.2 自定义bean对象实现序列化接口(Writable))
      • [2.3 序列化案例实操](#2.3 序列化案例实操)
    • 3、MapReduce框架原理
      • [3.1 InputFormat数据输入](#3.1 InputFormat数据输入)
      • [3.2 MapReduce工作流程](#3.2 MapReduce工作流程)
      • [3.3 Shuffle机制](#3.3 Shuffle机制)
      • [3.4 OutputFormat数据输出](#3.4 OutputFormat数据输出)
      • [3.5 MapReduce内核源码解析](#3.5 MapReduce内核源码解析)
      • [3.6 Join应用](#3.6 Join应用)
      • [3.7 数据清洗(ETL)](#3.7 数据清洗(ETL))
      • [3.8 MapReduce开发总结](#3.8 MapReduce开发总结)
    • 4、Hadoop数据压缩
      • [4.1 概述](#4.1 概述)
      • [4.2 MR支持的压缩编码](#4.2 MR支持的压缩编码)
      • [4.3 压缩方式选择](#4.3 压缩方式选择)
      • [4.4 压缩参数配置](#4.4 压缩参数配置)
      • [4.5 压缩实操案例](#4.5 压缩实操案例)
  • 四、Yarn
    • 1、Yarn资源调度器
      • [1.1 Yarn基础架构](#1.1 Yarn基础架构)
      • [1.2 Yarn工作机制](#1.2 Yarn工作机制)
      • [1.3 Yarn调度器和调度算法](#1.3 Yarn调度器和调度算法)
      • [1.4 Yarn 常用命令](#1.4 Yarn 常用命令)
      • [1.5 Yarn 生产环境核心参数](#1.5 Yarn 生产环境核心参数)
    • [2、Yarn 案例实操](#2、Yarn 案例实操)
      • [2.1 Yarn生产环境核心参数配置案例](#2.1 Yarn生产环境核心参数配置案例)
      • [2.2 容量调度器多队列提交案例](#2.2 容量调度器多队列提交案例)
      • [2.3 公平调度器案例](#2.3 公平调度器案例)
      • [2.4 Yarn的Tool接口案例](#2.4 Yarn的Tool接口案例)
  • 五、Hadoop生产调优
    • 1、HDFS核心参数
      • [1.1 NameNode内存生产配置](#1.1 NameNode内存生产配置)
      • [1.2 NameNode心跳并发配置](#1.2 NameNode心跳并发配置)
      • [1.3 开启回收站配置](#1.3 开启回收站配置)
    • 2、HDFS集群压测
      • [2.1 测试HDFS写性能](#2.1 测试HDFS写性能)
      • [2.2 测试HDFS读性能](#2.2 测试HDFS读性能)
    • 3、HDFS多目录
      • [3.1 NameNode多目录配置](#3.1 NameNode多目录配置)
      • [3.2 DataNode多目录配置(重要)](#3.2 DataNode多目录配置(重要))
      • [3.3 集群数据均衡之磁盘间数据均衡](#3.3 集群数据均衡之磁盘间数据均衡)
    • 4、HDFS集群扩容及缩容(重要)
      • [4.1 添加白名单](#4.1 添加白名单)
      • [4.2 新增服务器节点](#4.2 新增服务器节点)
      • [4.3 服务器间数据均衡](#4.3 服务器间数据均衡)
      • [4.4 黑名单退役服务器](#4.4 黑名单退役服务器)
      • [4.5 HDFS---集群迁移](#4.5 HDFS—集群迁移)
    • 5、HDFS存储优化
      • [5.1 纠删码](#5.1 纠删码)
      • [5.2 异构存储(冷热数据分离)](#5.2 异构存储(冷热数据分离))
    • 6、HDFS故障排除
      • [6.1 NameNode故障处理](#6.1 NameNode故障处理)
      • [6.2 集群安全模式&磁盘修复](#6.2 集群安全模式&磁盘修复)
      • [6.3 慢磁盘监控](#6.3 慢磁盘监控)
      • [6.4 小文件归档](#6.4 小文件归档)
    • 7、MapReduce生产经验(重点)
      • [7.1 MapReduce慢的原因](#7.1 MapReduce慢的原因)
      • [7.2 MapReduce常用调优参数](#7.2 MapReduce常用调优参数)
      • [7.3 MapReduce数据倾斜问题](#7.3 MapReduce数据倾斜问题)
    • 8、Yarn生产经验
    • 9、Hadoop综合调优
      • [9.1 Hadoop小文件优化方法](#9.1 Hadoop小文件优化方法)
      • [9.2 测试MapReduce计算性能](#9.2 测试MapReduce计算性能)
      • [9.3 企业开发场景案例](#9.3 企业开发场景案例)
  • 六、Hadoop高可用集群部署
    • [1、 HA 概述](#1、 HA 概述)
    • [2、HDFS-HA 集群搭建](#2、HDFS-HA 集群搭建)
      • [2.1 集群规划](#2.1 集群规划)
      • [2.2 HDFS-HA 核心问题](#2.2 HDFS-HA 核心问题)
    • [3、HDFS-HA 手动模式](#3、HDFS-HA 手动模式)
      • [3.1 环境准备](#3.1 环境准备)
      • [3.2 配置 HDFS-HA 集群](#3.2 配置 HDFS-HA 集群)
      • [3.3 启动 HDFS-HA 集群](#3.3 启动 HDFS-HA 集群)
    • [4、HDFS-HA 自动模式](#4、HDFS-HA 自动模式)
      • [4.1 自动故障转移工作机制](#4.1 自动故障转移工作机制)
      • [4.2 HDFS-HA 自动故障转移配置](#4.2 HDFS-HA 自动故障转移配置)
      • [4.3 解决 NN 连接不上 JN 的问题](#4.3 解决 NN 连接不上 JN 的问题)
    • [5、YARN-HA 配置](#5、YARN-HA 配置)
      • [5.1 环境与核心问题](#5.1 环境与核心问题)
      • [5.2 配置 YARN-HA 集群](#5.2 配置 YARN-HA 集群)
      • [5.3 HADOOP HA 的最终规划](#5.3 HADOOP HA 的最终规划)

一、Hadoop入门

1、Hadoop概述

1.1 简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念------Hadoop生态圈。

官网地址:http://hadoop.apache.org

下载地址:https://hadoop.apache.org/releases.html

1.2 hadoop优势

  • 高可靠:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
  • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
    理速度
  • 高容错性:能够自动将失败的任务重新分配

1.3 hadoop组成

1)HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

  • NameNode(NN):存储文件的元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等
  • DataNode(DN):在本地文件系统存储文件块数据 ,以及块数据的校验和
  • Secondary NameNode(2NN):每隔一段时间对NameNode元数据备份

2)YARN 架构概述

YARN(Yet Another Resource Negotiater):另一种资源协调者,是Hadoop的资源管理器

3)MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总

4)HDFS、YARN、MapReduce三者关系

1.4 大数据技术生态体系

  • Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
  • Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
  • Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
  • Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算
  • Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多
  • Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统
  • Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库
  • Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析
  • ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等

2、环境准备(重点)

2.1 模板机配置

bash 复制代码
# 安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G
# 具体安装不介绍了,可以VMware也可以pve进行安装,系统可以选择最小安装或者带图形安装
# 使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况
ping www.baidu.com
# 安装epel-release
# 注:Extra Packages for Enterprise Linux是为"红帽系"的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的
yum install -y epel-release
# 如果Linux安装的是最小系统版,还需要安装如下工具;如果安装的是Linux桌面标准版,不需要执行如下操作
# net-tool:工具包集合,包含ifconfig等命令
yum install -y net-tools 
yum install -y vim

# 关闭防火墙,关闭防火墙开机自启
# 注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
systemctl stop firewalld
systemctl disable firewalld.service

# 创建atguigu用户,并修改atguigu用户的密码
useradd atguigu
passwd atguigu

# 配置atguigu用户具有root权限,方便后期加sudo执行root权限的命令
vim /etc/sudoers
# 修改/etc/sudoers文件,在%wheel这行下面添加一行

## Allow root to run any commands anywhere
root ALL=(ALL) ALL
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
atguigu ALL=(ALL) NOPASSWD:ALL
# 注意:atguigu 这一行不要直接放到 root 行下面,因为所有用户都属于 wheel 组,你先配置了 atguigu 具有免密功能,但是程序执行到%wheel 行时,该功能又被覆盖回需要密码。所以 atguigu 要放到%wheel 这行下面

# 在/opt 目录下创建文件夹,并修改所属主和所属组,查看权限
mkdir /opt/module
mkdir /opt/software
chown atguigu:atguigu /opt/module 
chown atguigu:atguigu /opt/software
ll /opt

# 卸载虚拟机自带的 JDK
# 如果你的虚拟机是最小化安装不需要执行这一步
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
# rpm -qa:查询所安装的所有rpm软件包
# grep -i:忽略大小写
# xargs -n1:表示每次只传递一个参数
# rpm -e --nodeps:强制卸载软件
reboot

另外还需要配置网卡信息和主机名,这样更容易管理

bash 复制代码
# 首先找到自己的网卡,可能不同机器不一样,比如我的就是eth0
ip a
# 修改克隆虚拟机的静态 IP,动态也可以只是不好管理
vim /etc/sysconfig/network-scripts/ifcfg-eth0
# 改成下面,根据实际情况自己选取
ONBOOT=yes
BOOTPROTO=static
NAME="eth0"
IPADDR=192.168.31.210
PREFIX=24
GATEWAY=192.168.31.1
DNS1=192.168.31.1

# 修改主机名,模板机就设置为Hadoop100
vim /etc/hostname
# 配置 Linux 克隆机主机名称映射 hosts 文件,后期直接可以通过名字访问了
vim /etc/hosts
192.168.31.210 hadoop100
192.168.31.211 hadoop101
192.168.31.212 hadoop102
192.168.31.213 hadoop103
192.168.31.214 hadoop104
# 最后也可以将windows 的主机映射文件(hosts 文件)修改,在C:\Windows\System32\drivers\etc

2.2 模板创建

bash 复制代码
# 克隆hadoop100机器,打开后修改IP地址和hostname,重启
# ===================== 安装JDK8=========================
# 官网下载 https://www.oracle.com/java/technologies/downloads/
# 把文件上传到该目录i
ls /opt/software/
# 解压到指定目录
tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/module/
# 看一下全局加载的配置文件(环境便利)
cat /etc/profile
sudo vim /etc/profile.d/my_env.sh
# 写入以下环境
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin

# 刷新环境变量
source /etc/profile
# 测试
java -version

# ==================安装hadoop==================
# 官网 https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

# 为什么是把环境变量放在/etc/profile.d下呢?
# 如果正常登陆,是Login shell,会加载/etc/profile、~/.bash_profile、~/.bashrc->/etc/bashrc->/etc/profile.d/*.sh
# 如果是ssh登陆,是non-login shell,只会加载~/.bashrc->/etc/bashrc->/etc/profile.d/*.sh
sudo vim /etc/profile.d/my_env.sh
# 继续添加环境变量
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

source /etc/profile
# 测试,如果hadoop命令失效可以重启试试看
hadoop version

# hadoop相关目录介绍
# bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
# etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
# lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
# sbin目录:存放启动或停止Hadoop相关服务的脚本
# share目录:存放Hadoop的依赖jar包、文档、和官方案例

3、本地运行模式(官方WordCount)

官网:http://hadoop.apache.org/

Hadoop运行模式包括:本地模式伪分布式模式 以及完全分布式模式

  • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
  • **伪分布式模式:**也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
  • **完全分布式模式:**多台服务器组成分布式环境。生产环境使用。
bash 复制代码
cd /opt/module/hadoop-3.1.3/
mkdir wcinput
vim word.txt
# 在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu shawn
# 返回目录
cd /opt/module/hadoop-3.1.3
# 执行,统计每个单词数
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
# 查看结果
cat wcoutput/part-r-00000

4、Hadoop集群搭建(🌟重点)

4.1 环境准备(集群分发脚本xsync)

首先准备三台机器,我这里准备hadoop102,103,104,配置好相关hostname和ip,接下来复制相关软件和配置

bash 复制代码
# =====================scp(secure copy)安全拷贝======================
# scp可以实现服务器与服务器之间的数据拷贝
# 基本语法:scp -r $pdir/$fname  $user@$host:$pdir/$fname
# 前提:在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、/opt/software两个目录,并且已经把这两个目录修改为atguigu:atguigu
# scp -r /opt/module/jdk1.8.0_121  atguigu@hadoop103:/opt/module
scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop103:/opt/module
scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module

# =======================rsync远程同步工具=======================
# rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点
# rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去
# 基本命令:rsync -av $pdir/$fname $user@$host:$pdir/$fname
# -a 归档拷贝;-v 显示复制过程
rm -rf wcinput/
rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/

# =======================xsync集群分发脚本=========================
# 需求:循环复制文件到所有节点的相同目录下

# 在/home/atguigu/bin目录下创建xsync文件
cd /home/atguigu
mkdir bin
cd bin
vim xsync
# 写入一下脚本
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录,挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

# 修改脚本 xsync 具有执行权限
chmod +x xsync
# 测试脚本
xsync /home/atguigu/bin
# 将脚本复制到/bin中,以便全局调用
sudo cp xsync /bin/
# 同步环境变量配置(root所有者)
sudo ./bin/xsync /etc/profile.d/my_env.sh
# 每台机器都刷一下
source /etc/profile

4.2 SSH免密配置

bash 复制代码
cd ~
ls -la
# 如果没有就创建
# mkdir -p .ssh
cd .ssh/
ssh-keygen -t rsa
# 将公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104
# 注意103,104机器还需要进行相同的配置操作,使其互相免密登陆
# 还需要在 hadoop102 上采用 root 账号,配置一下无密登录到 hadoop102、hadoop103、hadoop104;

# .ssh 文件夹下(~/.ssh)的文件功能解释
# known_hosts,记录 ssh 访问过计算机的公钥(public key)
# id_rsa,生成的私钥
# id_rsa.pub,生成的公钥
# authorized_keys,存放授权过的无密登录服务器公钥

4.3 集群配置

1)集群部署规划

  • NameNode和SecondaryNameNode不要安装在同一台服务器
  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
hadoop102 hadoop103 hadoop104
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode
YARN NodeManager ResourceManager NodeManager NodeManager

2)配置文件说明

Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值

  • 默认配置文件
要获取的默认文件 文件存放在Hadoop的jar包中的位置
[core-default.xml] hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml] hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml] hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml] hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml
  • 自定义配置文件

core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置

3)配置集群

核心配置文件,配置core-site.xmlcd $HADOOP_HOME/etc/hadoopvim core-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>
    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
    </property>
</configuration>

HDFS配置文件,配置hdfs-site.xml,vim hdfs-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <!-- nn web端访问地址-->
  <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
  <!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

YARN配置文件,配置yarn-site.xml,vim yarn-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

MapReduce配置文件,配置mapred-site.xml,vim mapred-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4)在集群上分发配置好的Hadoop配置文件

bash 复制代码
xsync /opt/module/hadoop-3.1.3/etc/hadoop/
# 去其他节点查看
cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

4.4 启动集群

bash 复制代码
# 首先需要配置workers,其中每一行都代表着一个worker节点的主机名或IP地址,hadoop通过这个文件来确定集群中有哪些节点并且将任务分配到这些节点上
vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
# 该文件中添加的内容结尾不允许有空格,文件中不允许有空行
hadoop102
hadoop103
hadoop104
# 分发
xsync /opt/module/hadoop-3.1.3/etc

# 启动集群
# 如果集群是第一次启动,需要在hadoop102节点格式化NameNode
#(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。)
# 注意以下操作要在atguigu账号下进行,不要在root下
hdfs namenode -format
# 启动HDFS
sbin/start-dfs.sh
# 在配置了ResourceManager的节点(hadoop103)启动YARN
sbin/start-yarn.sh

# 可以在每个节点jps查看启动的服务
# Web端查看HDFS的NameNode,浏览器中输入:http://hadoop102:9870
# Web端查看YARN的ResourceManager,浏览器中输入:http://hadoop103:8088

然后进行集群基本测试

bash 复制代码
hadoop fs -mkdir /input
# 传小文件
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
hadoop fs -put  /opt/software/jdk-8u121-linux-x64.tar.gz  /
# 注意预览和下载需要在电脑配置好ip和主机名映射

# 上传文件后查看文件存放在什么位置
# 查看HDFS文件存储路径
cd /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
ll
# 可以发现是那个txt文件
cat blk_1073741825
# 对于jdk也可以进行拼接
cat blk_1073741836>>tmp.tar.gz
cat blk_1073741837>>tmp.tar.gz
tar -zxvf tmp.tar.gz

# hadoop文件下载
hadoop fs -get /jdk-8u121-linux-x64.tar.gz ./
# 执行wordcount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output



# 启动报错,误删数据等情况,导致集群崩溃
# Version是启动的版本号,集群根据这个来定位,如果不一样就崩溃
cat data/dfs/name/current/VERSION
# 如果集群异常,正常的操作方法是sbin/xxx脚本停止进程,然后删除data/和logs/,重新格式化,最后启动

这里访问SNN:http://hadoop104:9868/status.html,会发现界面有bug,需要进入hadoop104

bash 复制代码
cd /opt/module/hadoop-3.1.3/share/hadoop/hdfs/webapps/static
vim dfs-dust.js
# 在61行将moment所在行注释掉,添加自己的,最后清除缓存即可
return Number(v).toLocaleString()

4.5 配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器,需要配置mapred-site.xml,在该文件里面增加如下配置

xml 复制代码
<!-- 历史服务器端地址,rpc端口 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

然后进行操作

bash 复制代码
# 分发配置
xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
# 在hadoop102启动历史服务器
mapred --daemon start historyserver
# 查看历史服务器是否启动
jps
# 查看JobHistory
http://hadoop102:19888/jobhistory

4.6 配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer

需要配置 yarn-site.xml,在该文件里面增加如下配置

xml 复制代码
<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

启动执行

bash 复制代码
# 分发配置
xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml
# 关闭NodeManager 、ResourceManager和HistoryServer
# yarn在hadoop103操作
sbin/stop-yarn.sh
mapred --daemon stop historyserver
# 启动NodeManager 、ResourceManage和HistoryServer
start-yarn.sh
mapred --daemon start historyserver
# 删除HDFS上已经存在的输出文件
hadoop fs -rm -r /output
# 执行WordCount程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 查看日志
http://hadoop102:19888/jobhistory

4.7 集群启动/停止方式总结

bash 复制代码
# 各个模块分开启动/停止(配置ssh是前提)常用
# 整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
# 整体启动/停止YARN
start-yarn.sh/stop-yarn.sh

# 各个服务组件逐一启动/停止
# 分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
# 启动/停止YARN
yarn --daemon start/stop  resourcemanager/nodemanager

# 对于新节点的加入,首先定义好主机名和ssh免密,然后将配置文件分发到该机器
# 然后启动节点
hadoop-daemon.sh start datanode
# 然后启动数据同步命令
start-balancer.sh
# 启动yarn
yarn-daemon.sh start nodemanager

如果集群长时间启动后想去关闭集群,会发现集群无法关闭,这是因为脚本关停是根据服务的pid来关闭的,而hadoop 的 pid 文件默认在 /tmp 文件下,一般七天被系统清理掉,所以导致关停失败,如果需要能使用脚本关停,都开始需要将pid保存到其他路径下

bash 复制代码
# 来到hadoop程序配置文件
cd $HADOOP_HOME
mkdir tmp
cd etc/hadoop
vim hadoop-env.sh
:set nu
# 在198行设置成$HADOOP_HOME/tmp
export HADOOP_PID_DIR=${HADOOP_HOME}/tmp
# 在252行修改
export HADOOP_SECURE_PID_DIR=${HADOOP_PID_DIR}

4.8 Hadoop集群常用脚本

Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver)

bash 复制代码
cd /home/atguigu/bin
vim myhadoop.sh
# 写入脚本
chmod +x myhadoop.sh
bash 复制代码
#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"

        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

查看三台服务器Java进程脚本:jpsall

bash 复制代码
#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

最后进行启动分发

bash 复制代码
cd /home/atguigu/bin
vim jpsall
chmod +x jpsall

xsync /home/atguigu/bin/

4.9 常用端口号说明

端口名称 Hadoop2.x Hadoop3.x
NameNode内部通信端口 8020 / 9000 8020 / 9000/9820
NameNode HTTP UI 50070 9870
MapReduce查看执行任务端口 8088 8088
历史服务器通信端口 19888 19888

4.10 集群时间同步(可选)

如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步

bash 复制代码
# ==================时间服务器配置(必须root用户)==============
# 查看所有节点ntpd服务状态和开机自启动状态
sudo systemctl status ntpd
sudo systemctl start ntpd
sudo systemctl is-enabled ntpd
# 修改hadoop102的ntp.conf配置文件
sudo vim /etc/ntp.conf
# 修改内容如下
# 修改1(授权192.168.31.0-192.168.31.255网段上的所有机器可以从这台机器上查询和同步时间)
# restrict 192.168.31.0 mask 255.255.255.0 nomodify notrap 这行注释打开
# 修改2(集群在局域网中,不使用其他互联网上的时间)
# 注释以下四条
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

# 修改hadoop102的/etc/sysconfig/ntpd 文件
sudo vim /etc/sysconfig/ntpd
# 增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
# 重新启动ntpd服务
sudo systemctl start ntpd
# 设置ntpd服务开机启动
sudo systemctl enable ntpd

# ========================其他机器配置(必须root用户)==========
# 关闭所有节点上ntp服务和自启动
sudo systemctl stop ntpd
sudo systemctl disable ntpd
sudo systemctl stop ntpd
sudo systemctl disable ntpd

# 在其他机器配置1分钟与时间服务器同步一次
sudo crontab -e
*/1 * * * * /usr/sbin/ntpdate hadoop102

# 测试,修改任意机器时间
sudo date -s "2023-9-11 11:11:11"
# 1分钟后查看机器是否与时间服务器同步
sudo date

二、HDFS

1、HDFS概述

1.1 简介

HDFS(Hadoop Distributed File System),它是一个文件系统 ,用于存储文件,通过目录树来定位文件;其次它是分布式的 ,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变

1.2 HDFS优缺点

优点

  • 高容错性:一个数据会自动保存多个副本,某个副本丢失后,它可以自动恢复
  • 适合处理大数据:无论是数据规模还是文件数量规模大都可以处理
  • 可构建在廉价的机器上

缺点

  • 不适合低延迟的数据访问:如毫秒级的存储数据是做不到的

  • 无法高效地对大量小文件进行存储:

    • 存储大量小文件时,会占用NameNode大量内存去存储文件目录信息和块信息,而NameNode的内存是有限的
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标
  • 不支持并发写入和文件的随机修改

    • 不允许多个线程同时写同一文件
    • 仅支持数据追加,不支持随机修改

1.3 HDFS组成架构

1.4 HDFS文件块大小(面试重点)

在Hadoop1.x中文件块大小默认为64M,而在2.x和3.x中为128M。当寻址时间为传输时间的1%时为最佳状态。文件块的大小太小,则会导致大文件被分割成太多块,增加寻址时间。而文件块大小太大,则会使得传输时间远大于寻址时间。文件块的大小主要取决于磁盘的传输速率

2、HDFS的Shell操作(重点)

bash 复制代码
# 帮助查询某个命令
hadoop fs -help rm
# 创建/sanguo文件夹
hadoop fs -mkdir /sanguo

# ===================上传================
# -moveFromLocal:从本地剪切粘贴到HDFS,内容自己输入
vim shuguo.txt
hadoop fs  -moveFromLocal  ./shuguo.txt  /sanguo
# -copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去
vim weiguo.txt
hadoop fs -copyFromLocal weiguo.txt /sanguo
# -put:等同于copyFromLocal,生产环境更习惯用put
vim wuguo.txt
hadoop fs -put ./wuguo.txt /sanguo
# -appendToFile:追加一个文件到已经存在的文件末尾
vim liubei.txt
hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt
# ==================下载==================
# -copyToLocal:从HDFS拷贝到本地
hadoop fs -copyToLocal /sanguo/shuguo.txt ./
# -get:等同于copyToLocal,生产环境更习惯用get
hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt
# ===================HDFS直接操作==============
# -ls: 显示目录信息
hadoop fs -ls /sanguo
# -cat:显示文件内容
hadoop fs -cat /sanguo/shuguo.txt
# -chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
hadoop fs -chmod 666 /sanguo/shuguo.txt
hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt
# -mkdir:创建路径
hadoop fs -mkdir /jinguo
hadoop fs -mkdir -p /jinguo
# -cp:从HDFS的一个路径拷贝到HDFS的另一个路径
hadoop fs -cp /sanguo/shuguo.txt /jinguo
# -mv:在HDFS目录中移动文件
hadoop fs -mv /sanguo/wuguo.txt /jinguo
hadoop fs -mv /sanguo/weiguo.txt /jinguo
# -tail:显示一个文件的末尾1kb的数据
hadoop fs -tail /jinguo/shuguo.txt
# -rm:删除文件或文件夹
hadoop fs -rm /sanguo/shuguo.txt
# -rm -r:递归删除目录及目录里面内容;-f强制删除
hadoop fs -rm -r /sanguo
# -du统计文件夹的大小信息
hadoop fs -du -s -h /jinguo
hadoop fs -du  -h /jinguo
# -setrep:设置HDFS中文件的副本数量
# 这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10
hadoop fs -setrep 10 /jinguo/shuguo.txt
# 查询这个文件是否存在,存在就返回0,不存在返回1,
hadoop fs -test -e /jinguo
# 查询该路径下的文件夹数量,文件数量,和文件总大小
hadoop fs -count /jinguo
# 查看某个压缩文件的内容
hadoop fs -cat /origin_data/gmall/log/topic_log/2020-06-14/* | zcat

3、HDFS的API操作

3.1 环境准备

windows要启动hadooop,首先进去github官网下载对应版本的hadoop,这里我下载了3.1.0,下载完成后将路径的bin目录放入电脑的环境变量;验证Hadoop环境变量是否正常,双击winutils.exe,如果无报错即正常(报错大概率没有微软运行库,安装一下即可,还不行重启试试)

在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标

xml 复制代码
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.30</version>
     </dependency>
</dependencies>

在项目的src/main/resources目录下,新建一个文件,命名为"log4j.properties"

.properties 复制代码
log4j.rootLogger=INFO, stdout  
log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.logfile=org.apache.log4j.FileAppender  
log4j.appender.logfile.File=target/spring.log  
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建包名:com.atguigu.hdfs,创建HdfsClient类

java 复制代码
public class HdfsClient {

    @Test
    public void testMkdirs() throws IOException, URISyntaxException, InterruptedException {

        // 1 获取文件系统
        Configuration configuration = new Configuration();
        // 默认使用windows用户名,要配置用户
        // FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration);
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration,"atguigu");

        // 2 创建目录
        fs.mkdirs(new Path("/xiyou/huaguoshan/"));

        // 3 关闭资源
        fs.close();
    }
}

3.2 HDFS的API案例实操

** HDFS文件上传(测试参数优先级)**

java 复制代码
@Test
public void testCopyFromLocalFile() throws IOException, InterruptedException, URISyntaxException {

    // 1 获取文件系统
    Configuration configuration = new Configuration();
    configuration.set("dfs.replication", "2");
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

    // 2 上传文件
    fs.copyFromLocalFile(new Path("d:/sunwukong.txt"), new Path("/xiyou/huaguoshan"));

    // 3 关闭资源
    fs.close();
}

hdfs-site.xml拷贝到项目的resources资源目录下,测试发现参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>dfs.replication</name>
         <value>1</value>
  </property>
</configuration>

接下来常规API编写

java 复制代码
//HDFS文件下载
//注意:如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库
@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{

    // 1 获取文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
    
    // 2 执行下载操作
    // boolean delSrc 指是否将原文件删除
    // Path src 指要下载的文件路径
    // Path dst 指将文件下载到的路径
    // boolean useRawLocalFileSystem 是否开启文件校验
    fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("d:/sunwukong2.txt"), true);
    
    // 3 关闭资源
    fs.close();
}

//HDFS文件更名和移动
@Test
public void testRename() throws IOException, InterruptedException, URISyntaxException{

  // 1 获取文件系统
  Configuration configuration = new Configuration();
  FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu"); 
  // 文件夹也是同理更名
  // 2 修改文件名称
  fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("/xiyou/huaguoshan/meihouwang.txt"));
    
  // 3 关闭资源
  fs.close();
}

//HDFS删除文件和目录
@Test
public void testDelete() throws IOException, InterruptedException, URISyntaxException{

  // 1 获取文件系统
  Configuration configuration = new Configuration();
  FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
    
  // 2 执行删除
  fs.delete(new Path("/xiyou"), true);
    
  // 3 关闭资源
  fs.close();
}

//HDFS文件详情查看
@Test
public void testListFiles() throws IOException, InterruptedException, URISyntaxException {

  // 1获取文件系统
  Configuration configuration = new Configuration();
  FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

  // 2 获取文件详情
  RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);

  while (listFiles.hasNext()) {
    LocatedFileStatus fileStatus = listFiles.next();

    System.out.println("========" + fileStatus.getPath() + "=========");
    System.out.println(fileStatus.getPermission());
    System.out.println(fileStatus.getOwner());
    System.out.println(fileStatus.getGroup());
    System.out.println(fileStatus.getLen());
    System.out.println(fileStatus.getModificationTime());
    System.out.println(fileStatus.getReplication());
    System.out.println(fileStatus.getBlockSize());
    System.out.println(fileStatus.getPath().getName());

    // 获取块信息
    BlockLocation[] blockLocations = fileStatus.getBlockLocations();
    System.out.println(Arrays.toString(blockLocations));
  }
  // 3 关闭资源
  fs.close();
}

//HDFS文件和文件夹判断
@Test
public void testListStatus() throws IOException, InterruptedException, URISyntaxException{

    // 1 获取文件配置信息
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");

    // 2 判断是文件还是文件夹
    FileStatus[] listStatus = fs.listStatus(new Path("/"));

    for (FileStatus fileStatus : listStatus) {

        // 如果是文件
        if (fileStatus.isFile()) {
            System.out.println("f:"+fileStatus.getPath().getName());
        }else {
            System.out.println("d:"+fileStatus.getPath().getName());
        }
    }

    // 3 关闭资源
    fs.close();
}

4、HDFS的读写流程(面试重点)

4.1 HDFS 写数据流程

  • 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在
  • NameNode返回是否可以上传
  • 客户端请求第一个 Block上传到哪几个DataNode服务器上
  • NameNode返回3个DataNode节点,分别为dn1、dn2、dn3
  • 客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成
  • dn1、dn2、dn3逐级应答客户端
  • 客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答
  • 当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)

对于网络拓扑-节点距离计算 ,在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,节点距离:两个节点到达最近的共同祖先的距离总和。

对于机架感知(副本存储节点选择) ,可以查看官方手册Crtl + n 查找BlockPlacementPolicyDefault,在该类中查找chooseTargetInOrder方法

4.2 HDFS 读数据流程

  • 客户端通过 DistributedFileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址
  • 挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据
  • DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)
  • 客户端以 Packet 为单位接收,先在本地缓存,然后写入目标文件

5、NameNode 和 SecondaryNameNode

5.1 NN和2NN工作机制

NameNode 中的元数据是存储在哪里的?如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage 。为了防止NameNode 节点断电,就会产生数据丢失。引入 Edits 文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中 。这样,一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据。而新的节点SecondaryNamenode,专门用于FsImage和Edits的合并

5.2 Fsimage和Edits解析

另外会生成两个fsimage,其中另一个是在 Secondary NameNode 上生成的 Checkpoint 文件,它记录了上一次合并的文件系统状态信息。查看Fsimages文件和Edits文件如下

bash 复制代码
# =====================oiv查看Fsimage文件=================
# 基本语法
hdfs oiv -p 文件类型 -i镜像文件 -o 转换后文件输出路径

# 将显示的xml文件内容拷贝到Idea中创建的xml文件中,并格式化
cd /opt/module/hadoop-3.1.3/data/dfs/name/current
hdfs oiv -p XML -i fsimage_0000000000000000025 -o /opt/module/hadoop-3.1.3/fsimage.xml
cat /opt/module/hadoop-3.1.3/fsimage.xml
# 可以看出,Fsimage中没有记录块所对应DataNode,因为在集群启动后,要求DataNode上报数据块信息,并间隔一段时间后再次上报

# ======================oev查看Edits文件=================
# 基本语法
hdfs oev -p 文件类型 -i编辑日志 -o 转换后文件输出路径
hdfs oev -p XML -i edits_0000000000000000012-0000000000000000013 -o /opt/module/hadoop-3.1.3/edits.xml
cat /opt/module/hadoop-3.1.3/edits.xml
# NameNode如何确定下次开机启动的时候合并哪些Edits?是根据fsimages号大于的进行合并

5.3 CheckPoint时间设置

  • 通常情况下,SecondaryNameNode每隔一小时执行一次,配置文件在[hdfs-default.xml]
xml 复制代码
<property>
  <name>dfs.namenode.checkpoint.period</name>
  <value>3600s</value>
</property>
  • 一分钟检查一次操作次数,当操作次数达到1百万时,SecondaryNameNode执行一次
xml 复制代码
<property>
  <name>dfs.namenode.checkpoint.txns</name>
  <value>1000000</value>
<description>操作动作次数</description>
</property>

<property>
  <name>dfs.namenode.checkpoint.check.period</name>
  <value>60s</value>
<description> 1分钟检查一次操作次数</description>
</property>

6、DataNode

6.1 DataNode工作机制

  • 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳
  • DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。
xml 复制代码
<!--DN向NN汇报当前解读信息的时间间隔,默认6小时-->
<property>
  <name>dfs.blockreport.intervalMsec</name>
  <value>21600000</value>
  <description>Determines block reporting interval in milliseconds.</description>
</property>
<!--DN扫描自己节点块信息列表的时间,默认6小时-->
<property>
  <name>dfs.datanode.directoryscan.interval</name>
  <value>21600s</value>
  <description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk.
  Support multiple time unit suffix(case insensitive), as described
  in dfs.heartbeat.interval.
  </description>
</property>
  • 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用
  • 集群运行中可以安全加入和退出一些机器

6.2 数据完整性

  • 当DataNode读取Block的时候,它会计算CheckSum
  • 如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏
  • Client读取其他DataNode上的Block
  • 常见的校验算法crc(32),md5(128),sha1(160)
  • DataNode在其文件创建后周期验证CheckSum

6.3 掉线时限参数设置

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒

xml 复制代码
<property>
    <name>dfs.namenode.heartbeat.recheck-interval</name>
    <value>300000</value>
</property>

<property>
    <name>dfs.heartbeat.interval</name>
    <value>3</value>
</property>

三、MapReduce

1、MapReduce概述

1.1 MapReduce定义

MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

1.2 优缺点

优点

  • 易于编程。用户只需要关心业务逻辑
  • 良好的扩展性。可以动态增加服务器,解决计算资源不够的问题
  • 高容错性。任何一台集群挂掉,可以将任务转移到其他节点
  • 适合海量数据计算(TB/PB)。几千台服务器共同计算

缺点

  • 不擅长实时计算。MySQL擅长
  • 不擅长流式计算。Flink擅长
  • 不擅长DAG有向无关图计算。Spark擅长

1.3 MapReduce核心思想

一个完整的MapReduce程序在分布式运行时有三类实例进程:

  • MrAppMaster:负责整个程序的过程调度及状态协调
  • MapTask:负责Map阶段的整个数据处理流程
  • ReduceTask:负责Reduce阶段的整个数据处理流程

1.4 序列化类型与编程规范

Java类型 Hadoop Writable类型
Boolean BooleanWritable
Byte ByteWritable
Int IntWritable
Float FloatWritable
Long LongWritable
Double DoubleWritable
String Text
Map MapWritable
Array ArrayWritable
Null NullWritable

用户编写的程序分为3个部分:Mapper、Reducer和Driver

Mapper阶段

  • 用户自定义的Mapper要继承自己的父类
  • Mapper的输入是键值对的形式
  • Mapper中的业务逻辑写在map()方法中
  • Mapper的输出是键值对的形式
  • map()方法对每一个<K, V>调用一次

Reducer阶段

  • 用户自定义的Reducer要继承自己的父类
  • Reducer的输入类型与Mapper的输入类型相对应
  • Reducer的业务逻辑写在reduce()方法中
  • ReduceTask进程对每一组相同的<K, V>调用一次reduce()方法

Driver阶段

  • 相当于Yarn集群的客户端,用于提交整个程序到Yarn集群,提交的是封装
  • MapReduce程序相关运行 参数的job对象

1.5 WordCount案例实操

通过IDEA创建工程,环境和上面API操作一致,创建包名com.atguigu.mapreduce.wordcount

java 复制代码
// 注意导入包都要选择mapreduce.xxx的,mapred是之前1.x的写法
//编写Mapper类
// 四元分别是输入的<key,value>和输出到reducer的<key,value>
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    @Override
    protected void map(LongWritable key, Text value, Context context)  throws IOException, InterruptedException {
        // 1 获取一行
        String line = value.toString();
        // 2 切割
        String[] words = line.split(" ");
        // 3 输出
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

//编写Reducer类
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

int sum;
IntWritable v = new IntWritable();

  @Override
  protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
    // 1 累加求和
    sum = 0;
    // 这相当于一个相同key集合
    for (IntWritable count : values) {
      sum += count.get();
    }
    // 2 输出
         v.set(sum);
    context.write(key,v);
  }
}


//编写Driver驱动类
public class WordCountDriver {

  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    // 1 获取配置信息以及获取job对象
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf);
    // 2 关联本Driver程序的jar
    job.setJarByClass(WordCountDriver.class);
    // 3 关联Mapper和Reducer的jar
    job.setMapperClass(WordCountMapper.class);
    job.setReducerClass(WordCountReducer.class);
    // 4 设置Mapper输出的kv类型
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);
    // 5 设置最终输出kv类型
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    // 6 设置输入和输出路径,可以暂时写自己的路径进行测试
    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    // 7 提交job
    boolean result = job.waitForCompletion(true);
    System.exit(result ? 0 : 1);
  }
}

集群上测试,用maven打jar包,需要添加的打包插件依赖,然后package

xml 复制代码
<build>
    <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.6.1</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
            </configuration>
        </plugin>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

如果系统带有依赖,可以直接打包不用插件的jar包,修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径

bash 复制代码
sbin/start-dfs.sh
sbin/start-yarn.sh
# 没有依赖的话指定全类名
hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/input /user/atguigu/output

2、Hadoop序列化

2.1 概述

序列化 就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象

一般来说,"活的"对象只生存在内存里,关机断电就没有了。而且对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机

为什么不用Java的序列化?Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。所以,Hadoop自己开发了一套序列化机制(Writable)

2.2 自定义bean对象实现序列化接口(Writable)

企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口

  • 必须实现Writable接口
  • 反序列化时,需要反射调用空参构造函数,所以必须有空参构造
java 复制代码
public FlowBean() {
  super();
}
  • 重写序列化方法和重写反序列化方法,注意反序列化的顺序和序列化的顺序完全一致
java 复制代码
@Override
public void write(DataOutput out) throws IOException {
  out.writeLong(upFlow);
  out.writeLong(downFlow);
  out.writeLong(sumFlow);
}

@Override
public void readFields(DataInput in) throws IOException {
  upFlow = in.readLong();
  downFlow = in.readLong();
  sumFlow = in.readLong();
}
  • 要想把结果显示在文件中,需要重写toString(),可用"\t"分开,方便后续用
  • 如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的Shuffle过程要求对key必须能排序
java 复制代码
@Override
public int compareTo(FlowBean o) {
  // 倒序排列,从大到小
  return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

2.3 序列化案例实操

数据格式如下所示

bash 复制代码
1  13736230513  192.196.100.1  www.atguigu.com  2481  24681  200
2  13846544121  192.196.100.2      264  0  200
3   13956435636  192.196.100.3      132  1512  200
4   13966251146  192.168.100.1      240  0  404
5   18271575951  192.168.100.2  www.atguigu.com  1527  2106  200
6   84188413  192.168.100.3  www.atguigu.com  4116  1432  200
7   13590439668  192.168.100.4      1116  954  200

创建包

java 复制代码
//1 继承 Writable 接口
public class FlowBean implements Writable {
    private long upFlow; //上行流量
    private long downFlow; //下行流量
    private long sumFlow; //总流量
    //2 提供无参构造
    public FlowBean() {
    }
    //3 提供三个参数的 getter 和 setter 方法
    public long getUpFlow() {
        return upFlow;
    }
    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }
    public long getDownFlow() {
        return downFlow;
    }
    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }
    public long getSumFlow() {
        return sumFlow;
    }
    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }
    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }
    //4 实现序列化和反序列化方法,注意顺序一定要保持一致
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }
    //5 重写 ToString
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }
}


//编写Mapper类
public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
    private Text outK = new Text();
    private FlowBean outV = new FlowBean();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //1 获取一行数据,转成字符串
        String line = value.toString();

        //2 切割数据
        String[] split = line.split("\t");

        //3 抓取我们需要的数据:手机号,上行流量,下行流量
        String phone = split[1];
        String up = split[split.length - 3];
        String down = split[split.length - 2];

        //4 封装outK outV
        outK.set(phone);

        outV.setUpFlow(Long.parseLong(up));
        outV.setDownFlow(Long.parseLong(down));
        outV.setSumFlow();

        //5 写出outK outV
        context.write(outK, outV);
    }
}

//编写Reducer类
public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
    private FlowBean outV = new FlowBean();
    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {

        long totalUp = 0;
        long totalDown = 0;

        //1 遍历values,将其中的上行流量,下行流量分别累加
        for (FlowBean flowBean : values) {
            totalUp += flowBean.getUpFlow();
            totalDown += flowBean.getDownFlow();
        }

        //2 封装outKV
        outV.setUpFlow(totalUp);
        outV.setDownFlow(totalDown);
        outV.setSumFlow();

        //3 写出outK outV
        context.write(key,outV);
    }
}

//编写Driver驱动类
public class FlowDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setJarByClass(FlowDriver.class);

        //3 关联Mapper和Reducer
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);
        
        //4 设置Map端输出KV类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
        
        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        
        //6 设置程序的输入输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\inputflow"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\flowoutput"));
        
        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

3、MapReduce框架原理

3.1 InputFormat数据输入

切片与MapTask并行度决定机制:MapTask的并行度决定Map阶段任务处理并发度,进而影响到整个job的处理速度。数据块(block)是物理上把数据分成一块一块的,数据块是HDFS数据存储单位。

数据切片只是在逻辑上对输入数据进行分片,数据切片是MapReduce程序计算输入数据的单位。一个切片会对应启动一个MapTask。

Job提交流程源码详解

java 复制代码
waitForCompletion()

submit();

// 1建立连接
  connect();  
    // 1)创建提交Job的代理
    new Cluster(getConfiguration());
      // (1)判断是本地运行环境还是yarn集群运行环境
      initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)

  // 1)创建给集群提交数据的Stag路径
  Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

  // 2)获取jobid ,并创建Job路径
  JobID jobId = submitClient.getNewJobID();

  // 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);  
  rUploader.uploadFiles(job, jobSubmitDir);

  // 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
    input.getSplits(job);

  // 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
  conf.writeXml(out);

  // 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

FileInputFormat切片源码解析(input.getSplits(job)****)

注意这里小于1.1倍名义上是切成一块,其实存储还是两块,只是把小的那部分通过网络拉取过来形成一块处理

  • 简单地按照文件的内容长度进行切片
  • 切片大小,默认等于Block大小
  • 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

TextInputFormat实现类

FileInputFormat常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等

TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable类型。值是这行的内容,不包括任何行终止符(换行符和回车符),Text类型

CombineTextInputFormat实现类

框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下

CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理

java 复制代码
// 首先准备四个小文件

// 不做任何处理,输出切片为4

//驱动类中添加代码如下
//输出为3
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

// 输出为1
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);

3.2 MapReduce工作流程

3.3 Shuffle机制

Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle

Shuffle分区

  • 如果ReduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;
  • 如果1<ReduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会Exception;
  • 如果ReduceTask的数量=1,则不管MapTask端输出多少个分区文件,最终结果都交给这一个ReduceTask,最终也就只会产生一个结果文件 part-r-00000;
  • 分区号必须从零开始,逐一累加。
java 复制代码
//Partition分区案例实操
//这是默认分区return (key.hashCode()&Integer.MAX_VALUE)% numReduceTasks;
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {

    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        //获取手机号前三位prePhone
        String phone = text.toString();
        String prePhone = phone.substring(0, 3);

        //定义一个分区号变量partition,根据prePhone设置分区号
        int partition;

        if("136".equals(prePhone)){
            partition = 0;
        }else if("137".equals(prePhone)){
            partition = 1;
        }else if("138".equals(prePhone)){
            partition = 2;
        }else if("139".equals(prePhone)){
            partition = 3;
        }else {
            partition = 4;
        }

        //最后返回分区号partition
        return partition;
    }
}

//最后在driver里修改代码
//8 指定自定义分区器
job.setPartitionerClass(ProvincePartitioner.class);
//9 同时指定相应数量的ReduceTask
job.setNumReduceTasks(5);

WritableComparable排序

MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。

  • 对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序
  • 对于ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。
java 复制代码
// WritableComparable排序案例实操(全排序)
// 对上面序列化案例的FlowBean重写其compare接口
// 目标根据总流量倒叙进行排序
@Override
public int compareTo(FlowBean o) {

    //按照总流量比较,倒序排列
    if(this.sumFlow > o.sumFlow){
        return -1;
    }else if(this.sumFlow < o.sumFlow){
        return 1;
    }else {
        return 0;
    }
}

//编写Mapper类
public class FlowMapper extends Mapper<LongWritable, Text, FlowBean, Text> {
    private FlowBean outK = new FlowBean();
    private Text outV = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //1 获取一行数据
        String line = value.toString();

        //2 按照"\t",切割数据
        String[] split = line.split("\t");

        //3 封装outK outV
        outK.setUpFlow(Long.parseLong(split[1]));
        outK.setDownFlow(Long.parseLong(split[2]));
        outK.setSumFlow();
        outV.set(split[0]);

        //4 写出outK outV
        context.write(outK,outV);
    }
}



//编写Reducer类
public class FlowReducer extends Reducer<FlowBean, Text, Text, FlowBean> {
    @Override
    protected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        //遍历values集合,循环写出,避免总流量相同的情况
        for (Text value : values) {
            //调换KV位置,反向写出
            context.write(value,key);
        }
    }
}

//编写Driver类
public class FlowDriver {

    public static void main(String[] args) throws IOException,ClassNotFoundException, InterruptedException {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setJarByClass(FlowDriver.class);

        //3 关联Mapper和Reducer
        job.setMapperClass(FlowMapper.class);
        job.setReducerClass(FlowReducer.class);

        //4 设置Map端输出数据的KV类型
        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(Text.class);

        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        //6 设置输入输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\inputflow2"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\comparout"));

        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

Combiner合并

  • Combiner是MR程序中Mapper和口Reducer之外的---种组件
  • Combiner组件的父类就是Reducer
  • Cobiner和口Reducer的区别在于运行的位置
    • Combiner是在每一个MapTask所在的节点运行;
    • Reducer是接收全局所有Mapper的输出结果;
  • Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量
  • Combiner能够应用的前提是不能影响最终的业务逻辑,而且Combiner的输出kv应该跟Reducer的输入kv类型要对应起来
java 复制代码
//Combiner合并案例实操
//认情况下,如果没有指定Combiner类,则不会执行Combiner操作
//增加一个WordCountCombiner类继承Reducer
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> {

private IntWritable outV = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        //封装outKV
        outV.set(sum);
        //写出outKV
        context.write(key,outV);
    }
}
//在WordcountDriver驱动类中指定Combiner
// 指定需要使用combiner,以及用哪个类作为combiner的逻辑
// 不过一般直接用reduce的类即可
job.setCombinerClass(WordCountCombiner.class);

//如果设置job.setNumReduceTasks(0);即没有reduce阶段,那么shuffle后面的都不会有

3.4 OutputFormat数据输出

OutputFomat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。默认是TextOutputFormat

java 复制代码
//自定义OutputFormat案例实操
// 编写 LogMapper 类
public class LogMapper extends Mapper<LongWritable, Text,Text,
        NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        //不做任何处理,直接写出一行 log 数据
        context.write(value, NullWritable.get());
    }
}

//编写 LogReducer 类
public class LogReducer extends Reducer<Text, NullWritable,Text,
        NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context
            context) throws IOException, InterruptedException {
        // 防止有相同的数据,迭代写出
        for (NullWritable value : values) {
            context.write(key, NullWritable.get());
        }
    }
}



//自定义一个 LogOutputFormat 类
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable>
{
    @Override
    public RecordWriter<Text, NullWritable>
    getRecordWriter(TaskAttemptContext job) throws IOException,
            InterruptedException {
        //创建一个自定义的 RecordWriter 返回
        LogRecordWriter logRecordWriter = new LogRecordWriter(job);
        return logRecordWriter;
    }
}

//编写 LogRecordWriter 类
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {

    private FSDataOutputStream atguiguOut;
    private FSDataOutputStream otherOut;

    public LogRecordWriter(TaskAttemptContext job) {
        try {
            //获取文件系统对象
            FileSystem fs = FileSystem.get(job.getConfiguration());
            //用文件系统对象创建两个输出流对应不同的目录
            atguiguOut = fs.create(new Path("d:/hadoop/atguigu.log"));
            otherOut = fs.create(new Path("d:/hadoop/other.log"));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void write(Text key, NullWritable value) throws IOException, InterruptedException {
        String log = key.toString();
        //根据一行的log数据是否包含atguigu,判断两条输出流输出的内容
        if (log.contains("atguigu")) {
            atguiguOut.writeBytes(log + "\n");
        } else {
            otherOut.writeBytes(log + "\n");
        }
    }

    @Override
    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        //关流
        IOUtils.closeStream(atguiguOut);
        IOUtils.closeStream(otherOut);
    }
}


//编写LogDriver类
public class LogDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(LogDriver.class);
        job.setMapperClass(LogMapper.class);
        job.setReducerClass(LogReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //设置自定义的outputformat
        job.setOutputFormatClass(LogOutputFormat.class);

        FileInputFormat.setInputPaths(job, new Path("D:\\input"));
        //虽然我们自定义了outputformat,但是因为我们的outputformat继承自fileoutputformat
        //而fileoutputformat要输出一个_SUCCESS文件,所以在这还得指定一个输出目录
        FileOutputFormat.setOutputPath(job, new Path("D:\\logoutput"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

3.5 MapReduce内核源码解析

MapTask工作机制

  • Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value
  • Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value
  • Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中
  • Spill阶段:即"溢写",当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。溢写阶段详情:
    • 步骤1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号Partition进行排序,然后按照key进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。
    • 步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
    • 步骤3:将分区数据的元信息写到内存索引数据结构SpillRecord中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件output/spillN.out.index中。
  • Merge阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。当所有数据处理完后,MapTask会将所有临时文件合并成一个大文件,并保存到文件output/file.out中,同时生成相应的索引文件output/file.out.index。在进行文件合并过程中,MapTask以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。让每个MapTask最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销

ReduceTask工作机制

  • Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中
  • Sort阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可
  • Reduce阶段:reduce()函数将计算结果写到HDFS上。

ReduceTask并行度决定机制

MapTask并行度由切片个数决定,切片个数由输入文件和切片规则决定。reduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置

java 复制代码
// 默认值是1,手动设置为4
job.setNumReduceTasks(4);
// ReduceTask=O,表示漫有Reduce阶段,输出文件个数数口Map个数一致。
// ReduceTask:默认值就是1,所以输出文件个数为一个。
// 如果数据分布不均匀,就有可能在Reduce阶段产生数居倾斜
// ReduceTask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask。
// 具体多少个ReduceTask,需要根据集群性能而定。一般等于cpu内核数最佳
// 如果分区数不是1,但是ReduceTask为1,是否执行分区过程。答案是:不执行分区过程。因为在M apTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。

MapTask & ReduceTask源码解析

java 复制代码
=================== MapTask ===================
context.write(k, NullWritable.get());   
//自定义的map方法的写出,进入
output.write(key, value);  
  //MapTask727行,收集方法,进入两次 
  collector.collect(key, value,partitioner.getPartition(key, value, partitions));
  HashPartitioner(); //默认分区器
  //MapTask1082行 map端所有的kv全部写出后会走下面的close方法
  collect()  
    close() //MapTask732行
    collector.flush() // 溢出刷写方法,MapTask735行,提前打个断点,进入
      sortAndSpill() //溢写排序,MapTask1505行,进入
        sorter.sort()   QuickSort //溢写排序方法,MapTask1625行,进入
       mergeParts(); //合并文件,MapTask1527行,进入

     collector.close(); //MapTask739行,收集器关闭,即将进入ReduceTask


=================== ReduceTask ===================
if (isMapOrReduce())  //reduceTask324行,提前打断点
initialize()   // reduceTask333行,进入
init(shuffleContext);  // reduceTask375行,走到这需要先给下面的打断点
        totalMaps = job.getNumMapTasks(); // ShuffleSchedulerImpl第120行,提前打断点
         merger = createMergeManager(context); //合并方法,Shuffle第80行
      // MergeManagerImpl第232 235行,提前打断点
      this.inMemoryMerger = createInMemoryMerger(); //内存合并
      this.onDiskMerger = new OnDiskMerger(this); //磁盘合并
rIter = shuffleConsumerPlugin.run();
    eventFetcher.start();  //开始抓取数据,Shuffle第107行,提前打断点
    eventFetcher.shutDown();  //抓取结束,Shuffle第141行,提前打断点
    copyPhase.complete();   //copy阶段完成,Shuffle第151行
    taskStatus.setPhase(TaskStatus.Phase.SORT);  //开始排序阶段,Shuffle第152行
  sortPhase.complete();   //排序阶段完成,即将进入reduce阶段 reduceTask382行
reduce();  //reduce阶段调用的就是我们自定义的reduce方法,会被调用多次
  cleanup(context); //reduce完成之前,会最后调用一次Reducer里面的cleanup方法

3.6 Join应用

现在有以下需求

首先是传统的方式

java 复制代码
// TableBean
public class TableBean implements Writable {

    private String id; //订单id
    private String pid; //产品id
    private int amount; //产品数量
    private String pname; //产品名称
    private String flag; //判断是order表还是pd表的标志字段

    public TableBean() {
    }
    public String getId() {
        return id;
    }
    public void setId(String id) {
        this.id = id;
    }
    public String getPid() {
        return pid;
    }
    public void setPid(String pid) {
        this.pid = pid;
    }
    public int getAmount() {
        return amount;
    }
    public void setAmount(int amount) {
        this.amount = amount;
    }
    public String getPname() {
        return pname;
    }
    public void setPname(String pname) {
        this.pname = pname;
    }
    public String getFlag() {
        return flag;
    }
    public void setFlag(String flag) {
        this.flag = flag;
    }

    @Override
    public String toString() {
        return id + "\t" + pname + "\t" + amount;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(id);
        out.writeUTF(pid);
        out.writeInt(amount);
        out.writeUTF(pname);
        out.writeUTF(flag);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.id = in.readUTF();
        this.pid = in.readUTF();
        this.amount = in.readInt();
        this.pname = in.readUTF();
        this.flag = in.readUTF();
    }
}

//TableMapper
public class TableMapper extends Mapper<LongWritable, Text,Text,TableBean> {

    private String filename;
    private Text outK = new Text();
    private TableBean outV = new TableBean();

    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        //获取对应文件名称
        InputSplit split = context.getInputSplit();
        FileSplit fileSplit = (FileSplit) split;
        filename = fileSplit.getPath().getName();
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //获取一行
        String line = value.toString();

        //判断是哪个文件,然后针对文件进行不同的操作
        if(filename.contains("order")){  //订单表的处理
            String[] split = line.split("\t");
            //封装outK
            outK.set(split[1]);
            //封装outV
            outV.setId(split[0]);
            outV.setPid(split[1]);
            outV.setAmount(Integer.parseInt(split[2]));
            outV.setPname("");
            outV.setFlag("order");
        }else {                             //商品表的处理
            String[] split = line.split("\t");
            //封装outK
            outK.set(split[0]);
            //封装outV
            outV.setId("");
            outV.setPid(split[0]);
            outV.setAmount(0);
            outV.setPname(split[1]);
            outV.setFlag("pd");
        }

        //写出KV
        context.write(outK,outV);
    }
}

public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {

    @Override
    protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {

        ArrayList<TableBean> orderBeans = new ArrayList<>();
        TableBean pdBean = new TableBean();

        for (TableBean value : values) {

            //判断数据来自哪个表
            if("order".equals(value.getFlag())){   //订单表

                //创建一个临时TableBean对象接收value
                TableBean tmpOrderBean = new TableBean();

                try {
                    BeanUtils.copyProperties(tmpOrderBean,value);
                } catch (IllegalAccessException | InvocationTargetException e) {
                    e.printStackTrace();
                }

                //将临时TableBean对象添加到集合orderBeans
                orderBeans.add(tmpOrderBean);
            }else {                                    //商品表
                try {
                    BeanUtils.copyProperties(pdBean,value);
                } catch (IllegalAccessException | InvocationTargetException e) {
                    e.printStackTrace();
                }
            }
        }

        //遍历集合orderBeans,替换掉每个orderBean的pid为pname,然后写出
        for (TableBean orderBean : orderBeans) {

            orderBean.setPname(pdBean.getPname());
            //写出修改后的orderBean对象
            context.write(orderBean,NullWritable.get());
        }
    }
}


public class TableDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(TableDriver.class);
        job.setMapperClass(TableMapper.class);
        job.setReducerClass(TableReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(TableBean.class);

        job.setOutputKeyClass(TableBean.class);
        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path("C:\\Users\\SHAWN\\Desktop\\Hadoop3.x\\input"));
        FileOutputFormat.setOutputPath(job, new Path("C:\\Users\\SHAWN\\Desktop\\Hadoop3.x\\output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

但这种方式中,合并的操作是在Reduce阶段完成,Reduce端的处理压力太大,Map节点的运算负载则很低,资源利用率不高,且在Reduce阶段极易产生数据倾斜。解决方案:Map端实现数据合并

Map Join适用于一张表十分小、一张表很大的场景。在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。具体办法:采用DistributedCache,在Mapper的setup阶段,将文件读取到缓存集合中

java 复制代码
//先在MapJoinDriver驱动类中添加缓存文件
public class MapJoinDriver {

    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {

        // 1 获取job信息
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        // 2 设置加载jar包路径
        job.setJarByClass(MapJoinDriver.class);
        // 3 关联mapper
        job.setMapperClass(MapJoinMapper.class);
        // 4 设置Map输出KV类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);
        // 5 设置最终输出KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        // 加载缓存数据
        job.addCacheFile(new URI("file:///D:/input/tablecache/pd.txt"));
        // Map端Join的逻辑不需要Reduce阶段,设置reduceTask数量为0
        job.setNumReduceTasks(0);

        // 6 设置输入输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\input"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\output"));
        // 7 提交
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

//在MapJoinMapper类中的setup方法中读取缓存文件
public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    private Map<String, String> pdMap = new HashMap<>();
    private Text text = new Text();

    //任务开始前将pd数据缓存进pdMap
    @Override
    protected void setup(Context context) throws IOException, InterruptedException {

        //通过缓存文件得到小表数据pd.txt
        URI[] cacheFiles = context.getCacheFiles();
        Path path = new Path(cacheFiles[0]);

        //获取文件系统对象,并开流
        FileSystem fs = FileSystem.get(context.getConfiguration());
        FSDataInputStream fis = fs.open(path);

        //通过包装流转换为reader,方便按行读取
        BufferedReader reader = new BufferedReader(new InputStreamReader(fis, "UTF-8"));

        //逐行读取,按行处理
        String line;
        while (StringUtils.isNotEmpty(line = reader.readLine())) {
            //切割一行    
            //01  小米
            String[] split = line.split("\t");
            pdMap.put(split[0], split[1]);
        }

        //关流
        IOUtils.closeStream(reader);
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //读取大表数据    
        //1001  01  1
        String[] fields = value.toString().split("\t");

        //通过大表每行数据的pid,去pdMap里面取出pname
        String pname = pdMap.get(fields[1]);

        //将大表每行数据的pid替换为pname
        text.set(fields[0] + "\t" + pname + "\t" + fields[2]);

        //写出
        context.write(text,NullWritable.get());
    }
}

3.7 数据清洗(ETL)

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。**清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。**例如去除日志中字段个数小于等于11的日志

bash 复制代码
194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"
183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"
163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"
101.226.68.137 - - [18/Sep/2013:06:49:45 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"

需要在Map阶段对输入的数据根据规则进行过滤清洗,开始编写代码

java 复制代码
//编写WebLogMapper类
public class WebLogMapper extends Mapper<LongWritable, Text, Text, NullWritable>{
  
  @Override
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    
    // 1 获取1行数据
    String line = value.toString();
    
    // 2 解析日志
    boolean result = parseLog(line,context);
    
    // 3 日志不合法退出
    if (!result) {
      return;
    }
    
    // 4 日志合法就直接写出
    context.write(value, NullWritable.get());
  }

  // 2 封装解析日志的方法
  private boolean parseLog(String line, Context context) {

    // 1 截取
    String[] fields = line.split(" ");
    
    // 2 日志长度大于11的为合法
    if (fields.length > 11) {
      return true;
    }else {
      return false;
    }
  }
}


//编写WebLogDriver类
public class WebLogDriver {
  public static void main(String[] args) throws Exception {

// 输入输出路径需要根据自己电脑上实际的输入输出路径设置
        args = new String[] { "D:/input/inputlog", "D:/output1" };

    // 1 获取job信息
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf);

    // 2 加载jar包
    job.setJarByClass(LogDriver.class);

    // 3 关联map
    job.setMapperClass(WebLogMapper.class);

    // 4 设置最终输出类型
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    // 设置reducetask个数为0
    job.setNumReduceTasks(0);

    // 5 设置输入和输出路径
    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    // 6 提交
         boolean b = job.waitForCompletion(true);
         System.exit(b ? 0 : 1);
  }
}

3.8 MapReduce开发总结

  • 输入数据接口:InputFormat

    • 默认使用的实现类是:TextInputFormat
    • TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回
    • CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。
  • 逻辑处理接口:Mapper

    用户根据业务需求实现其中三个方法:map() setup() cleanup ()

  • Partitioner分区

    • 有默认实现 HashPartitioner,逻辑是根据key的哈希值和numReduces来返回一个分区号;key.hashCode()&Integer.MAXVALUE % numReduces
    • 如果业务上有特别的需求,可以自定义分区
  • Comparable排序

    • 当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法
    • 部分排序:对最终输出的每一个文件进行内部排序
    • 全排序:对所有数据进行排序,通常只有一个Reduce
    • 二次排序:排序的条件有两个
  • Combiner合并

    Combiner合并可以提高程序执行效率,减少IO传输。但是使用时必须不能影响原有的业务处理结果

  • 逻辑处理接口:Reducer

    用户根据业务需求实现其中三个方法:reduce() setup() cleanup ()

  • 输出数据接口:OutputFormat

    • 默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对,向目标文本文件输出一行
    • 用户还可以自定义OutputFormat

4、Hadoop数据压缩

4.1 概述

压缩的好处和坏处

  • 压缩的优点:以减少磁盘IO、减少磁盘存储空间
  • 压缩的缺点:增加CPU开销

压缩原则

  • 运算密集型的Job,少用压缩
  • IO密集型的Job,多用压缩

4.2 MR支持的压缩编码

压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 换成压缩格式后,原来的程序是否需要修改
DEFLATE 是,直接使用 DEFLATE .deflate 和文本处理一样,不需要修改
Gzip 是,直接使用 DEFLATE .gz 和文本处理一样,不需要修改
bzip2 是,直接使用 bzip2 .bz2 和文本处理一样,不需要修改
LZO 否,需要安装 LZO .lzo 需要建索引,还需要指定输入格式
Snappy 是,直接使用 Snappy .snappy 和文本处理一样,不需要修改

压缩性能的比较

压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度
gzip 8.3GB 1.8GB 17.5MB/s 58MB/s
bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s
LZO 8.3GB 2.9GB 49.3MB/s 74.6MB/s

4.3 压缩方式选择

压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片

4.4 压缩参数配置

为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器

压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compression.lzo.LzopCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

要在Hadoop中启用压缩,可以配置如下参数

参数 默认值 阶段 建议
io.compression.codecs (在core-site.xml中配置) 无,这个需要在命令行输入hadoop checknative查看 输入压缩 Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress(在mapred-site.xml中配置) false mapper输出 这个参数设为true启用压缩
mapreduce.map.output.compress.codec(在mapred-site.xml中配置) org.apache.hadoop.io.compress.DefaultCodec mapper输出 企业多使用LZO或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress(在mapred-site.xml中配置) false reducer输出 这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec(在mapred-site.xml中配置) xxxxxxxxxx drop table if exists promotion_info;create table promotion_info( promotion_id string comment '优惠活动id', brand string comment '优惠品牌', start_date string comment '优惠活动开始日期', end_date string comment '优惠活动结束日期') comment '各品牌活动周期表';​select brand, sum(datediff(end_date,start_date)+1) promotion_day_countfrom( select brand, max_end_date, if(max_end_date is null or start_date>max_end_date,start_date,date_add(max_end_date,1)) start_date, end_date from ( select brand, start_date, end_date, max(end_date) over(partition by brand order by start_date rows between unbounded preceding and 1 preceding) max_end_date from promotion_info )t1)t2where end_date>start_dategroup by brand;​sql reducer输出 使用标准工具或者编解码器,如gzip和bzip2

4.5 压缩实操案例

java 复制代码
// 在driver开启mapper压缩,其他都不需要变,即中间文件压缩了,不影响输出
Configuration conf = new Configuration();
// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);
// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);
Job job = Job.getInstance(conf);


// 设置reducer的压缩,影响最终输出结果
// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);
// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);

四、Yarn

1、Yarn资源调度器

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序

1.1 Yarn基础架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

1.2 Yarn工作机制

1.3 Yarn调度器和调度算法

目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler(具体设置详见:yarn-default.xml文件),CDH框架默认调度器是Fair Scheduler

先进先出调度器(FIFO)

FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务

容量调度器(Capacity Scheduler)

Capacity Scheduler 是 Yahoo 开发的多用户调度器


公平调度器(Fair Scheduler)

Fair Schedulere 是 Facebook 开发的多用户调度器

公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。某一

时刻一个作业应获资源和实际获取资源的差距叫"缺额"。调度器会优先为缺额大的作业分配资源

DRF策略:DRF(Dominant Resource Fairness),我们之前说的资源,都是单一标准,例如只考虑内存(也是Yarn默认的情况)。但是很多时候我们资源有很多种,例如内存,CPU,网络带宽等,这样我们很难衡量两个应用应该分配的资源比例。

1.4 Yarn 常用命令

bash 复制代码
# yarn状态的查询,除了可以在hadoop103:8088页面查看外,还可以通过命令操作
# 先运行
myhadoop.sh start
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

# =======================yarn application查看任务==============
# 列出所有Application
yarn application -list
# 根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)
yarn application -list -appStates FINISHED
# Kill掉Application
yarn application -kill application_1612577921195_0001

# ====================yarn logs查看日志======================
# 查询Application日志:yarn logs -applicationId <ApplicationId>
yarn logs -applicationId application_1612577921195_0001
# 查询Container日志:yarn logs -applicationId <ApplicationId> -containerId <ContainerId>
yarn logs -applicationId application_1612577921195_0001 -containerId container_1612577921195_0001_01_000001

# ====================yarn applicationattempt查看尝试运行的任务=====
# 列出所有Application尝试的列表:yarn applicationattempt -list <ApplicationId>
yarn applicationattempt -list application_1612577921195_0001
# 打印ApplicationAttemp状态:yarn applicationattempt -status <ApplicationAttemptId>
yarn applicationattempt -status appattempt_1612577921195_0001_000001

# =====================yarn container查看容器===============
# 列出所有Container:yarn container -list <ApplicationAttemptId>
yarn container -list appattempt_1612577921195_0001_000001
# 打印Container状态:  yarn container -status <ContainerId>
# 注:只有在任务跑的途中才能看到container的状态
yarn container -status container_1612577921195_0001_01_000001

# ==========================yarn rmadmin更新配置==============
# 加载队列配置:yarn rmadmin -refreshQueues
yarn rmadmin -refreshQueues

# =======================yarn queue查看队列====================
# 打印队列信息:yarn queue -status <QueueName>
yarn queue -status default

1.5 Yarn 生产环境核心参数

2、Yarn 案例实操

注:调整下列参数之前尽量拍摄 Linux 快照,否则后续的案例,还需要重写准备集群

2.1 Yarn生产环境核心参数配置案例

需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster,平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3),所以要改yarn-site.xml配置参数如下

xml 复制代码
<!-- 选择调度器,默认容量 -->
<property>
  <description>The class to use as the resource scheduler.</description>
  <name>yarn.resourcemanager.scheduler.class</name>
  <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

<!-- ResourceManager处理调度器请求的线程数量,默认50;如果提交的任务数大于50,可以增加该值,但是不能超过3台 * 4线程 = 12线程(去除其他应用程序实际不能超过8) -->
<property>
  <description>Number of threads to handle scheduler interface.</description>
  <name>yarn.resourcemanager.scheduler.client.thread-count</name>
  <value>8</value>
</property>
<!-- 是否让yarn自动检测硬件进行配置,默认是false,如果该节点有很多其他应用程序,建议手动配置。如果该节点没有其他应用程序,可以采用自动 -->
<property>
  <description>Enable auto-detection of node capabilities such as
  memory and CPU.
  </description>
  <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
  <value>false</value>
</property>

<!-- 是否将虚拟核数当作CPU核数,默认是false,采用物理CPU核数 -->
<property>
  <description>Flag to determine if logical processors(such as
  hyperthreads) should be counted as cores. Only applicable on Linux
  when yarn.nodemanager.resource.cpu-vcores is set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true.
  </description>
  <name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
  <value>false</value>
</property>

<!-- 虚拟核数和物理核数乘数,默认是1.0 -->
<property>
  <description>Multiplier to determine how to convert phyiscal cores to
  vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
  is set to -1(which implies auto-calculate vcores) and
  yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The  number of vcores will be calculated as  number of CPUs * multiplier.
  </description>
  <name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
  <value>1.0</value>
</property>

<!-- NodeManager使用内存数,默认8G,修改为4G内存 -->
<property>
  <description>Amount of physical memory, in MB, that can be allocated 
  for containers. If set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
  automatically calculated(in case of Windows and Linux).
  In other cases, the default is 8192MB.
  </description>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>4096</value>
</property>

<!-- nodemanager的CPU核数,不按照硬件环境自动设定时默认是8个,修改为4个 -->
<property>
  <description>Number of vcores that can be allocated
  for containers. This is used by the RM scheduler when allocating
  resources for containers. This is not used to limit the number of
  CPUs used by YARN containers. If it is set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
  automatically determined from the hardware in case of Windows and Linux.
  In other cases, number of vcores is 8 by default.</description>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>4</value>
</property>

<!-- 容器最小内存,默认1G -->
<property>
  <description>The minimum allocation for every container request at theRM  in MBs. Memory requests lower than this will be set to the value of this  property. Additionally, a node manager that is configured to have less memory  than this value will be shut down by the resource manager.
  </description>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>1024</value>
</property>

<!-- 容器最大内存,默认8G,修改为2G -->
<property>
  <description>The maximum allocation for every container request at the RM  in MBs. Memory requests higher than this will throw an  InvalidResourceRequestException.
  </description>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>2048</value>
</property>

<!-- 容器最小CPU核数,默认1个 -->
<property>
  <description>The minimum allocation for every container request at the RM  in terms of virtual CPU cores. Requests lower than this will be set to the  value of this property. Additionally, a node manager that is configured to  have fewer virtual cores than this value will be shut down by the resource  manager.
  </description>
  <name>yarn.scheduler.minimum-allocation-vcores</name>
  <value>1</value>
</property>

<!-- 容器最大CPU核数,默认4个,修改为2个 -->
<property>
  <description>The maximum allocation for every container request at the RM  in terms of virtual CPU cores. Requests higher than this will throw an
  InvalidResourceRequestException.</description>
  <name>yarn.scheduler.maximum-allocation-vcores</name>
  <value>2</value>
</property>

<!-- yarn对物理内存默认打开,建议打开 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>true</value>
</property>
    
<!-- 虚拟内存检查,默认打开,修改为关闭 -->
<property>
  <description>Whether virtual memory limits will be enforced for
  containers.</description>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value>
</property>

<!-- 虚拟内存和物理内存设置比例,默认2.1 -->
<property>
  <description>Ratio between virtual memory to physical memory when  setting memory limits for containers. Container allocations are  expressed in terms of physical memory, and virtual memory usage  is allowed to exceed this allocation by this ratio.
  </description>
  <name>yarn.nodemanager.vmem-pmem-ratio</name>
  <value>2.1</value>
</property>

如果集群的硬件资源不一致,要每个NodeManager单独配置

bash 复制代码
# 重启集群
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# http://hadoop103:8088/cluster/apps

2.2 容量调度器多队列提交案例

  • 需求1:default队列占总内存的40%,最大资源容量占总资源60%,hive队列占总内存的60%,最大资源容量占总资源80%
  • 需求2:配置队列优先级

capacity-scheduler.xml中配置如下

xml 复制代码
<!--为新加队列添加必要属性-->
<!-- 指定多队列,增加hive队列 -->
<property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>default,hive</value>
    <description>
      The queues at the this level (root is the root queue).
    </description>
</property>

<!-- 降低default队列资源额定容量为40%,默认100% -->
<property>
    <name>yarn.scheduler.capacity.root.default.capacity</name>
    <value>40</value>
</property>

<!-- 降低default队列资源最大容量为60%,默认100% -->
<property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
    <value>60</value>
</property>



<!------------------------为新加队列添加必要属性------------------------->
<!-- 指定hive队列的资源额定容量 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.capacity</name>
    <value>60</value>
</property>

<!-- 用户最多可以使用队列多少资源,1表示 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.user-limit-factor</name>
    <value>1</value>
</property>

<!-- 指定hive队列的资源最大容量 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-capacity</name>
    <value>80</value>
</property>

<!-- 启动hive队列 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.state</name>
    <value>RUNNING</value>
</property>

<!-- 哪些用户有权向队列提交作业 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applications</name>
    <value>*</value>
</property>

<!-- 哪些用户有权操作队列,管理员权限(查看/杀死) -->
<property>
    <name>yarn.scheduler.capacity.root.hive.acl_administer_queue</name>
    <value>*</value>
</property>

<!-- 哪些用户有权配置提交任务优先级 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.acl_application_max_priority</name>
    <value>*</value>
</property>

<!-- 任务的超时时间设置:yarn application -appId appId -updateLifetime Timeout
参考资料:https://blog.cloudera.com/enforcing-application-lifetime-slas-yarn/ -->

<!-- 如果application指定了超时时间,则提交到该队列的application能够指定的最大超时时间不能超过该值。 
-->
<property>
    <name>yarn.scheduler.capacity.root.hive.maximum-application-lifetime</name>
    <value>-1</value>
</property>

<!-- 如果application没指定超时时间,则用default-application-lifetime作为默认值 -->
<property>
    <name>yarn.scheduler.capacity.root.hive.default-application-lifetime</name>
    <value>-1</value>
</property>

分发配置文件,重启Yarn或者执行yarn rmadmin -refreshQueues刷新队列,就可以看到两条队列,然后像Hive提交任务

bash 复制代码
# 向Hive队列提交任务
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename=hive /input /output

# 打jar包的方式,默认的任务提交都是提交到default队列的。如果希望向其他队列提交任务,需要在Driver中声明
public class WcDrvier {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        conf.set("mapreduce.job.queuename","hive");
        //1. 获取一个Job实例
        Job job = Job.getInstance(conf);
        。。。 。。。
        //6. 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

最后说一下任务优先级,容量调度器,支持任务优先级的配置,在资源紧张时,优先级高的任务将优先获取资源。默认情况,Yarn将所有任务的优先级限制为0,若想使用任务的优先级功能,须开放该限制,修改yarn-site.xml文件,增加以下参数

bash 复制代码
<property>
    <name>yarn.cluster.max-application-priority</name>
    <value>5</value>
</property>

# 分发配置,并重启Yarn
xsync yarn-site.xml
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 模拟资源紧张环境,可连续提交以下任务,直到新提交的任务申请不到资源为止
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 5 2000000
# 再次重新提交优先级高的任务
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi  -D mapreduce.job.priority=5 5 2000000
# 也可以通过以下命令修改正在执行的任务的优先级
# yarn application -appID <ApplicationID> -updatePriority 优先级
yarn application -appID application_1611133087930_0009 -updatePriority 5

2.3 公平调度器案例

配置文件参考资料:https://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/FairScheduler.html

任务队列放置规则参考资料:https://blog.cloudera.com/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

创建两个队列,分别是test和atguigu(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test用户提交的任务到root.group.test队列运行,atguigu提交的任务到root.group.atguigu队列运行(注:group为用户所属组)。公平调度器的配置涉及到两个文件,一个是yarn-site.xml,另一个是公平调度器队列分配文件fair-scheduler.xml(文件名可自定义)。

修改yarn-site.xml文件,加入以下参数

xml 复制代码
<property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
    <description>配置使用公平调度器</description>
</property>

<property>
    <name>yarn.scheduler.fair.allocation.file</name>
    <value>/opt/module/hadoop-3.1.3/etc/hadoop/fair-scheduler.xml</value>
    <description>指明公平调度器队列分配配置文件</description>
</property>

<property>
    <name>yarn.scheduler.fair.preemption</name>
    <value>false</value>
    <description>禁止队列间资源抢占</description>
</property>

配置fair-scheduler.xml

xml 复制代码
<?xml version="1.0"?>
<allocations>
  <!-- 单个队列中Application Master占用资源的最大比例,取值0-1 ,企业一般配置0.1 -->
  <queueMaxAMShareDefault>0.5</queueMaxAMShareDefault>
  <!-- 单个队列最大资源的默认值 test atguigu default -->
  <queueMaxResourcesDefault>4096mb,4vcores</queueMaxResourcesDefault>

  <!-- 增加一个队列test -->
  <queue name="test">
    <!-- 队列最小资源 -->
    <minResources>2048mb,2vcores</minResources>
    <!-- 队列最大资源 -->
    <maxResources>4096mb,4vcores</maxResources>
    <!-- 队列中最多同时运行的应用数,默认50,根据线程数配置 -->
    <maxRunningApps>4</maxRunningApps>
    <!-- 队列中Application Master占用资源的最大比例 -->
    <maxAMShare>0.5</maxAMShare>
    <!-- 该队列资源权重,默认值为1.0 -->
    <weight>1.0</weight>
    <!-- 队列内部的资源分配策略 -->
    <schedulingPolicy>fair</schedulingPolicy>
  </queue>
  <!-- 增加一个队列atguigu -->
  <queue name="atguigu" type="parent">
    <!-- 队列最小资源 -->
    <minResources>2048mb,2vcores</minResources>
    <!-- 队列最大资源 -->
    <maxResources>4096mb,4vcores</maxResources>
    <!-- 队列中最多同时运行的应用数,默认50,根据线程数配置 -->
    <maxRunningApps>4</maxRunningApps>
    <!-- 队列中Application Master占用资源的最大比例,maxAMShare只能用于叶子队列 -->
    <!-- 该队列资源权重,默认值为1.0 -->
    <weight>1.0</weight>
    <!-- 队列内部的资源分配策略 -->
    <schedulingPolicy>fair</schedulingPolicy>
  </queue>

  <!-- 任务队列分配策略,可配置多层规则,从第一个规则开始匹配,直到匹配成功 -->
  <queuePlacementPolicy>
    <!-- 提交任务时指定队列,如未指定提交队列,则继续匹配下一个规则; false表示:如果指定队列不存在,不允许自动创建-->
    <rule name="specified" create="false"/>
    <!-- 提交到root.group.username队列,若root.group不存在,不允许自动创建;若root.group.user不存在,允许自动创建 -->
    <rule name="nestedUserQueue" create="true">
        <rule name="primaryGroup" create="false"/>
    </rule>
    <!-- 最后一个规则必须为reject或者default。Reject表示拒绝创建提交失败,default表示把任务提交到default队列 -->
    <rule name="reject" />
  </queuePlacementPolicy>
</allocations>

分发并测试提交

bash 复制代码
xsync yarn-site.xml
xsync fair-scheduler.xml
sbin/stop-yarn.sh
sbin/start-yarn.sh

# 提交任务时指定队列,按照配置规则,任务会到指定的root.test队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -Dmapreduce.job.queuename=root.test 1 1
# 提交任务时不指定队列,按照配置规则,任务会到root.atguigu.atguigu队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1

2.4 Yarn的Tool接口案例

自己写的jar包期望可以动态传参,结果报错,误认为是第一个输入参数,解决方法编写 Yarn 的 Tool 接口,首先编写maven项目,导包

xml 复制代码
<dependencies>
   <dependency>
     <groupId>org.apache.hadoop</groupId>
     <artifactId>hadoop-client</artifactId>
     <version>3.1.3</version>
   </dependency>
 </dependencies>
java 复制代码
//创建类WordCount并实现Tool接口
public class WordCount implements Tool {

    private Configuration conf;

    @Override
    public int run(String[] args) throws Exception {

        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountDriver.class);

        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return job.waitForCompletion(true) ? 0 : 1;
    }

    @Override
    public void setConf(Configuration conf) {
        this.conf = conf;
    }
    @Override
    public Configuration getConf() {
        return conf;
    }

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        private Text outK = new Text();
        private IntWritable outV = new IntWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] words = line.split(" ");

            for (String word : words) {
                outK.set(word);
                context.write(outK, outV);
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable outV = new IntWritable();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            outV.set(sum);
            context.write(key, outV);
        }
    }
}


//新建WordCountDriver
public class WordCountDriver {

    private static Tool tool;


    public static void main(String[] args) throws Exception {
        // 1. 创建配置文件
        Configuration conf = new Configuration();

        // 2. 判断是否有tool接口
        switch (args[0]){
            case "wordcount":
                tool = new WordCount();
                break;
            default:
                throw new RuntimeException(" No such tool: "+ args[0] );
        }
        // 3. 用Tool执行程序
        // 用这个方法可以过滤-D
        // Arrays.copyOfRange 将老数组的元素放到新数组里面
        int run = ToolRunner.run(conf, tool, Arrays.copyOfRange(args, 1, args.length));

        System.exit(run);
    }
}

在HDFS上准备输入文件,假设为/input目录,向集群提交该Jar包yarn jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount /input /output注意此时提交的3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录。此时如果我们希望加入设置参数,可以在wordcount后面添加参数,例如:yarn jar YarnDemo.jar com.atguigu.yarn.WordCountDriver wordcount -Dmapreduce.job.queuename=root.test /input /output1

五、Hadoop生产调优

1、HDFS核心参数

1.1 NameNode内存生产配置

NameNode内存计算,每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿

Hadoop2.x系列,配置NameNode内存,NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下

bash 复制代码
HADOOP_NAMENODE_OPTS=-Xmx3072m

Hadoop3.x系列,配置NameNode内存,hadoop-env.sh中描述Hadoop的内存是动态分配的 (hadoop-env.sh在etc/hadoop目录下),比如我4g内存分配了948MB堆内存

bash 复制代码
# 查看NameNode和DataNode占用内存
jps
jmap -heap 2611
# 查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的,且相等。不是很合理
# 经验参考:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_hardware_requirements.html#concept_fzz_dq4_gbb
# 经验推荐
# namenode最小值1G,每增加1000000个block,增加1G内存
# datanode最小值4G,block数,或者副本数升高,都应该调大datanode的值。一个datanode上的副本总数低于4000000,调为4G,超过4000000,每增加1000000,增加1G

# 具体修改:hadoop-env.sh
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

1.2 NameNode心跳并发配置

每个节点启动时,都会发送心跳包给NN那么NameNode准备多少线程合适?vim hdfs-site.xml

xml 复制代码
The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.
NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10。
<property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
</property>

企业经验:dfs.namenode.handler.count=(20乘以以e为底log的ClusterSize),比如集群规模(DataNode台数)为3台时,此参数设置为21。可通过简单的python代码计算该值

python 复制代码
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()

1.3 开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用

参数说明:

  • 默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间
  • 默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等
  • 要求fs.trash.checkpoint.interval <= fs.trash.interval
bash 复制代码
# 测试
# 修改core-site.xml,配置垃圾回收时间为1分钟
<property>
    <name>fs.trash.interval</name>
    <value>1</value>
</property>
# 修改完后进行分发,然后重启

# 回收站目录在HDFS集群中的路径:/user/atguigu/.Trash/...
# 注意:通过网页上直接删除的文件也不会走回收站
# 通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
# 只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站,需要在NN所在客户端执行
hadoop fs -rm -r /user/atguigu/input
# 恢复回收站数据
hadoop fs -mv
/user/atguigu/.Trash/Current/user/atguigu/input    /user/atguigu/input

2、HDFS集群压测

HDFS的读写性能主要受网络和磁盘 影响比较大。为了方便测试,将hadoop102、hadoop103、hadoop104虚拟机网络都设置为100mbps。测试网速:来到hadoop102的/opt/module目录,创建一个

python 复制代码
python -m SimpleHTTPServer

2.1 测试HDFS写性能

测试内容:向HDFS集群写10个128M的文件

bash 复制代码
# 注意:nrFiles n为生成mapTask的数量,生产环境一般可通过hadoop103:8088查看CPU核数,设置为(CPU核数 - 1)
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
# 测试结果
2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 10:43:16 CST 2021
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:       Throughput mb/sec: 1.61
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Average IO rate mb/sec: 1.9
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:   IO rate std deviation: 0.76
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:      Test exec time sec: 133.05
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:
  • Number of files:生成mapTask数量,一般是集群中(CPU核数-1),我们测试虚拟机就按照实际的物理内存-1分配即可
  • Total MBytes processed:单个map处理的文件大小
  • Throughput mb/sec:单个mapTak的吞吐量 。计算方式:处理的总文件大小/每一个mapTask写数据的时间累加;集群整体吞吐量:生成mapTask数量*单个mapTak的吞吐量
  • Average IO rate mb/sec:平均mapTak的吞吐量。计算方式:每个mapTask处理文件大小/每一个mapTask写数据的时间,全部相加除以task数量
  • IO rate std deviation:方差、反映各个mapTask处理的差值,越小越均衡

注意:如果测试过程中,出现异常,说明检查了虚拟内存,可以在yarn-site.xml中设置虚拟内存检测为false,分发配置并重启Yarn集群sbin/stop-yarn.sh

xml 复制代码
<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

测试结果分析,由于副本1就在本地,所以该副本不参与测试,一共参与测试的文件:10个文件 * 2个副本 = 20个,压测后的速度:1.61,实测速度:1.61M/s * 20个文件 ≈ 32M/s,三台服务器的带宽:12.5 + 12.5 + 12.5 ≈ 30m/s,所有网络资源都已经用满。如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数

如果客户端不在集群节点,那就三个副本都参与计算

2.2 测试HDFS读性能

测试内容:读取HDFS集群10个128M的文件

bash 复制代码
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
# 结果
2021-02-09 11:34:15,847 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 11:34:15 CST 2021
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:       Throughput mb/sec: 200.28
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:  Average IO rate mb/sec: 266.74
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:   IO rate std deviation: 143.12
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:      Test exec time sec: 20.83

# 测试结果分析:为什么读取文件速度大于网络带宽?由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络

# 删除测试生成数据
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

3、HDFS多目录

3.1 NameNode多目录配置

NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性(非高可用)

在hdfs-site.xml文件中添加如下内容,注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,可以选择不分发

xml 复制代码
<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

停止集群,删除三台节点的data和logs中所有数据,格式化集群并启动

bash 复制代码
# 三台都要删除
rm -rf data/ logs/

bin/hdfs namenode -format
sbin/start-dfs.sh
# 检查name1和name2里面的内容,发现一模一样

3.2 DataNode多目录配置(重要)

DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)

在hdfs-site.xml文件中添加如下内容

xml 复制代码
<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

重启集群,查看结果

bash 复制代码
# /opt/module/hadoop-3.1.3/data/dfs
# 向集群上传一个文件,再次观察两个文件夹里面的内容发现不一致(一个有数一个没有)

3.3 集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)

bash 复制代码
# 生成均衡计划(我们只有一块磁盘,不会生成计划)
hdfs diskbalancer -plan hadoop103
# 执行均衡计划
hdfs diskbalancer -execute hadoop103.plan.json
# 查看当前均衡任务的执行情况
hdfs diskbalancer -query hadoop103
# 取消均衡任务
hdfs diskbalancer -cancel hadoop103.plan.json

4、HDFS集群扩容及缩容(重要)

4.1 添加白名单

白名单:表示在白名单的主机IP地址可以,用来存储数据,而非白名单的节点只能作为客户端访问,无法存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击

bash 复制代码
# 在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件
# 创建白名单
vim whitelist
hadoop102
hadoop103
# 创建黑名单,保持空即可
touch blacklist

# 在hdfs-site.xml配置文件中增加dfs.hosts配置参数
<!-- 白名单 -->
<property>
     <name>dfs.hosts</name>
     <value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
</property>

<!-- 黑名单 -->
<property>
     <name>dfs.hosts.exclude</name>
     <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

# 分发配置文件whitelist,hdfs-site.xml
xsync hdfs-site.xml whitelist
# 第一次添加白名单必须重启集群,不是第一次,只需要刷新NameNode节点即可
myhadoop.sh stop
myhadoop.sh start
# 在web浏览器上查看DN,http://hadoop102:9870/dfshealth.html#tab-datanode
# 在hadoop104上执行上传数据数据失败
# 二次修改白名单,增加hadoop104
# 刷新NameNode
hdfs dfsadmin -refreshNodes

4.2 新增服务器节点

随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点

bash 复制代码
# 环境准备
# 在hadoop100主机上再克隆一台hadoop105主机
# 修改IP地址和主机名称
vim /etc/sysconfig/network-scripts/ifcfg-ens33
vim /etc/hostname
# 拷贝hadoop102的/opt/module目录和/etc/profile.d/my_env.sh到hadoop105
scp -r module/* atguigu@hadoop105:/opt/module/
sudo scp /etc/profile.d/my_env.sh root@hadoop105:/etc/profile.d/my_env.sh
# 去 105
source /etc/profile
# 删除hadoop105上Hadoop的历史数据,data和log数据
rm -rf data/ logs/
# 配置hadoop102和hadoop103到hadoop105的ssh无密登录
ssh-copy-id hadoop105
ssh-copy-id hadoop105

# 服役新节点具体步骤
# 直接启动DataNode,即可关联到集群
hdfs --daemon start datanode
yarn --daemon start nodemanager

# 在白名单中增加新服役的服务器
# 在白名单whitelist中增加hadoop104、hadoop105,并重启集群
vim whitelist
# 分发与刷新
xsync whitelist
hdfs dfsadmin -refreshNodes
Refresh nodes successful

# 在hadoop105上上传文件
hadoop fs -put /opt/module/hadoop-3.1.3/LICENSE.txt /

4.3 服务器间数据均衡

在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令

bash 复制代码
# 开启数据均衡命令
# 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整
sbin/start-balancer.sh -threshold 10

# 停止数据均衡命令
sbin/stop-balancer.sh
# 注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器

4.4 黑名单退役服务器

黑名单:表示在黑名单的主机IP地址不可以,用来存储数据。企业中:配置黑名单,用来退役服务器

bash 复制代码
# 编辑/opt/module/hadoop-3.1.3/etc/hadoop目录下的blacklist文件
vim blacklist
# 添加如下主机名称(要退役的节点)
hadoop105

# 注意:如果白名单中没有配置,需要在hdfs-site.xml配置文件中增加dfs.hosts配置参数
!-- 黑名单 -->
<property>
     <name>dfs.hosts.exclude</name>
     <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

# 分发配置文件blacklist,hdfs-site.xml
xsync hdfs-site.xml blacklist
# 第一次添加黑名单必须重启集群,不是第一次,只需要刷新NameNode节点即可
hdfs dfsadmin -refreshNodes
# 检查Web浏览器,退役节点的状态为decommission in progress(退役中),说明数据节点正在复制块到其他节点
# 等待退役节点状态为decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役
hdfs --daemon stop datanode
yarn --daemon stop nodemanager

# 如果数据不均衡,可以用命令实现集群的再平衡
sbin/start-balancer.sh -threshold 10

4.5 HDFS---集群迁移

bash 复制代码
# 采用scp拷贝数据
# 采用distcp命令实现两个Hadoop集群之间的递归数据复制
bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop105:8020/user/atguigu/hello.txt

5、HDFS存储优化

5.1 纠删码

HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间

bash 复制代码
[atguigu@hadoop102 hadoop-3.1.3]$ hdfs ec
Usage: bin/hdfs ec [COMMAND]
          [-listPolicies]
          [-addPolicies -policyFile <file>]
          [-getPolicy -path <path>]
          [-removePolicy -policy <policy>]
          [-setPolicy -path <path> [-policy <policy>] [-replicate]]
          [-unsetPolicy -path <path>]
          [-listCodecs]
          [-enablePolicy -policy <policy>]
          [-disablePolicy -policy <policy>]
          [-help <command-name>].
          

# 查看当前支持的纠删码策略
hdfs ec -listPolicies
  • RS-3-2-1024k:使用RS编码,每3个数据单元,生成2个校验单元,共5个单元,也就是说:这5个单元中,只要有任意的3个单元存在(不管是数据单元还是校验单元,只要总数=3),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576
  • RS-10-4-1024k:使用RS编码,每10个数据单元(cell),生成4个校验单元,共14个单元,也就是说:这14个单元中,只要有任意的10个单元存在(不管是数据单元还是校验单元,只要总数=10),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576
  • RS-6-3-1024k:使用RS编码,每6个数据单元,生成3个校验单元,共9个单元,也就是说:这9个单元中,只要有任意的6个单元存在(不管是数据单元还是校验单元,只要总数=6),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576(默认开启)
  • RS-LEGACY-6-3-1024k:策略和上面的RS-6-3-1024k一样,只是编码的算法用的是rs-legacy
  • XOR-2-1-1024k:使用XOR编码(速度比RS编码快),每2个数据单元,生成1个校验单元,共3个单元,也就是说:这3个单元中,只要有任意的2个单元存在(不管是数据单元还是校验单元,只要总数= 2),就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576
bash 复制代码
# 纠删码案例实操,将/input目录设置为RS-3-2-1024k策略
# 默认只开启对RS-6-3-1024k策略的支持,如要使用别的策略需要提前启用
# 开启对RS-3-2-1024k策略的支持
hdfs ec -enablePolicy -policy RS-3-2-1024k
# 在HDFS创建目录,并设置RS-3-2-1024k策略
hdfs dfs -mkdir /input
hdfs ec -setPolicy -path /input -policy RS-3-2-1024k
# 上传文件,并查看文件编码后的存储情况
# 注:你所上传的文件需要大于2M才能看出效果。(低于2M,只有一个数据单元和两个校验单元)
hdfs dfs -put web.log /input

5.2 异构存储(冷热数据分离)

bash 复制代码
# 查看当前有哪些存储策略可以用
hdfs storagepolicies -listPolicies
# 为指定路径(数据存储目录)设置指定的存储策略
hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
# 获取指定路径(数据存储目录或文件)的存储策略
hdfs storagepolicies -getStoragePolicy -path xxx
# 取消存储策略;执行改命令之后该目录或者文件,以其上级的目录为准,如果是根目录,那么就是HOT
hdfs storagepolicies -unsetStoragePolicy -path xxx
# 查看文件块的分布
bin/hdfs fsck xxx -files -blocks -locations
# 查看集群节点
hadoop dfsadmin -report

我们这里进行测试,集群规划如下

节点 存储类型分配
hadoop102 RAM_DISK,SSD
hadoop103 SSD,DISK
hadoop104 DISK,RAM_DISK
hadoop105 ARCHIVE
hadoop106 ARCHIVE
xml 复制代码
<!--为hadoop102节点的hdfs-site.xml添加如下信息-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.storage.policy.enabled</name>
  <value>true</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name> 
  <value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_disk</value>
</property>

<!--为hadoop103节点的hdfs-site.xml添加如下信息-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.storage.policy.enabled</name>
  <value>true</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
</property>

<!--为hadoop104节点的hdfs-site.xml添加如下信息-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.storage.policy.enabled</name>
  <value>true</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>[RAM_DISK]file:///opt/module/hdfsdata/ram_disk,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
</property>

<!--为hadoop105节点的hdfs-site.xml添加如下信息-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.storage.policy.enabled</name>
  <value>true</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
</property>

<!--为hadoop106节点的hdfs-site.xml添加如下信息-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>
<property>
  <name>dfs.storage.policy.enabled</name>
  <value>true</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
</property>
bash 复制代码
# 启动集群,注意要删除data和logs目录
hdfs namenode -format
myhadoop.sh start
# 并在HDFS上创建文件目录
hadoop fs -mkdir /hdfsdata
hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata

环境搭建完,下面详细介绍集中存储策略

bash 复制代码
# =========================HOT存储策略案例========================
# 最开始我们未设置存储策略的情况下,我们获取该目录的存储策略
hdfs storagepolicies -getStoragePolicy -path /hdfsdata
# 我们查看上传的文件块分布
hdfs fsck /hdfsdata -files -blocks -locations
# 未设置存储策略,所有文件块都存储在DISK下。所以,默认存储策略为HOT

# =======================WARM存储策略测试========================
# 我们为数据降温
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM
# 再次查看文件块分布,我们可以看到文件块依然放在原处
hdfs fsck /hdfsdata -files -blocks -locations
# 我们需要让他HDFS按照存储策略自行移动文件块
hdfs mover /hdfsdata
# 再次查看文件块分布,文件块一半在DISK,一半在ARCHIVE,符合我们设置的WARM策略

# =======================COLD策略测试============================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy COLD
# 注意:当我们将目录设置为COLD并且我们未配置ARCHIVE存储目录的情况下,不可以向该目录直接上传文件,会报出异常
# 手动转移
hdfs mover /hdfsdata
bin/hdfs fsck /hdfsdata -files -blocks -locations

# ======================ONE_SSD策略测试==========================
# 接下来我们将存储策略从默认的HOT更改为One_SSD
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy One_SSD

# =====================ALL_SSD策略测试===========================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD

# =====================LAZY_PERSIST策略测试=======================
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy lazy_persist
# 这里我们发现所有的文件块都是存储在DISK,按照理论一个副本存储在RAM_DISK,其他副本存储在DISK中,这是因为,我们还需要配置"dfs.datanode.max.locked.memory","dfs.block.size"参数
# 当客户端所在的DataNode节点没有RAM_DISK时,则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘
# 当客户端所在的DataNode有RAM_DISK,但"dfs.datanode.max.locked.memory"参数值未设置或者设置过小(小于"dfs.block.size"参数值)时,则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘
# 是由于虚拟机的"max locked memory"为64KB,所以,如果参数配置过大,还会报出错误
ulimit -a

6、HDFS故障排除

6.1 NameNode故障处理

NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode

bash 复制代码
# 故障模拟
kill -9 NameNode进程
# 删除NameNode存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/name)
rm -rf /opt/module/hadoop-3.1.3/data/dfs/name/*

# 问题解决
# 拷贝SecondaryNameNode中数据到原NameNode存储数据目录
scp -r atguigu@hadoop104:/opt/module/hadoop-3.1.3/data/dfs/namesecondary/* ./name/
# 重新启动NameNode
hdfs --daemon start namenode

6.2 集群安全模式&磁盘修复

  • **安全模式:**文件系统只接受读数据请求,而不接受删除、修改等变更请求
  • 进入安全模式场景
    • NameNode在加载镜像文件和编辑日志期间处于安全模式;
    • NameNode再接收DataNode注册时,处于安全模式

退出安全模式条件

  • dfs.namenode.safemode.min.datanodes:最小可用datanode数量,默认0
  • dfs.namenode.safemode.threshold-pct:副本数达到最小要求的block占系统总block数的百分比,默认0.999f。(只允许丢一个块)
  • dfs.namenode.safemode.extension:稳定时间,默认值30000毫秒,即30秒
bash 复制代码
# 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式
bin/hdfs dfsadmin -safemode get  (功能描述:查看安全模式状态)
bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)
bin/hdfs dfsadmin -safemode leave  (功能描述:离开安全模式状态)
bin/hdfs dfsadmin -safemode wait  (功能描述:等待安全模式状态)


# ========================案例1:启动集群进入安全模式===============
# 集群启动后,立即来到集群上删除数据,提示集群处于安全模式

# ==================案例2:磁盘修复===========================
# 需求:数据块损坏,进入安全模式,如何处理
# 分别进入hadoop102、hadoop103、hadoop104的/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1015489500-192.168.10.102-1611909480872/current/finalized/subdir0/subdir0目录,统一删除某2个块信息
rm -rf blk_1073741847 blk_1073741847_1023.meta
rm -rf blk_1073741865 blk_1073741865_1042.meta
# 说明:hadoop103/hadoop104重复执行以上命令
# 重新启动集群,因为默认是6小时才汇报注册一次,删了集群一下子是不会有反应的
myhadoop.sh stop
myhadoop.sh start
# 观察http://hadoop102:9870/dfshealth.html#tab-overview
# 说明:安全模式已经打开,块的数量没有达到要求

# 离开安全模式
hdfs dfsadmin -safemode get
hdfs dfsadmin -safemode leave
# 观察http://hadoop102:9870/dfshealth.html#tab-overview
# 或者将元数据删除那么就会自动退出安全模式

# ===================案例3:模拟等待安全模式================
# 查看当前模式
hdfs dfsadmin -safemode get
# 先进入安全模式
bin/hdfs dfsadmin -safemode enter
# 创建并执行下面的脚本,在/opt/module/hadoop-3.1.3路径上,编辑一个脚本safemode.sh
# 一离开安全模式就立刻上传文件
vim safemode.sh
#!/bin/bash
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /

chmod 777 safemode.sh
./safemode.sh 
# 再打开一个窗口,执行
bin/hdfs dfsadmin -safemode leave

6.3 慢磁盘监控

"慢磁盘"指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见,当机器运行时间长了,上面跑的任务多了,磁盘的读写性能自然会退化,严重时就会出现写入数据延时的问题。如何发现慢磁盘?正常在HDFS上创建一个目录,只需要不到1s的时间。如果你发现创建目录超过1分钟及以上,而且这个现象并不是每次都有。只是偶尔慢了一下,就很有可能存在慢磁盘。可以采用如下方法找出是哪块磁盘慢:

  • 通过心跳未联系时间,一般出现慢磁盘现象,会影响到DataNode与NameNode之间的心跳。正常情况心跳时间间隔是3s。超过3s说明有异常
  • fio命令,测试磁盘的读写性能
bash 复制代码
sudo yum install -y fio
# ====================顺序读测试=====================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r

# ====================顺序写测试=====================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w

# ====================随机写测试=======================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw

# ===================混合随机读写=======================
sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop

6.4 小文件归档

HDFS存储小文件弊端

每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB

解决存储小文件办法之一

HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存

bash 复制代码
# 案例实操
# 需要启动YARN进程
start-yarn.sh
# 归档文件
# 把/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/output路径下
hadoop archive -archiveName input.har -p  /input   /output
# 查看归档
hadoop fs -ls /output/input.har
hadoop fs -ls har:///output/input.har
# 解归档文件
hadoop fs -cp har:///output/input.har/* /

7、MapReduce生产经验(重点)

7.1 MapReduce慢的原因

apReduce程序效率的瓶颈在于两点:

  • 计算机性能

    CPU、内存、磁盘、网络

  • I/O操作优化

    • 数据倾斜
    • Map运行时间太长,导致Reduce等待过久
    • 小文件过多

7.2 MapReduce常用调优参数

7.3 MapReduce数据倾斜问题

  • 数据频率倾斜------某一个区域的数据量要远远大于其他区域
  • 数据大小倾斜------部分记录的大小远远大于平均值

减少数据倾斜的方法

  • 首先检查是否空值过多造成的数据倾斜,生产环境,可以直接过滤掉空值;如果想保留空值,就自定义分区,将空值加随机数打散。最后再二次聚合
  • 能在map阶段提前处理,最好先在Map阶段处理。如:Combiner、MapJoin
  • 设置多个reduce个数

8、Yarn生产经验

bash 复制代码
# =========================Resourcemanager相关================
# ResourceManager处理调度器请求的线程数量
yarn.resourcemanager.scheduler.client.thread-count
# 配置调度器
yarn.resourcemanager.scheduler.class

# =========================Nodemanager相关===================
# NodeManager使用内存数
yarn.nodemanager.resource.memory-mb
# NodeManager为系统保留多少内存,和上一个参数二者取一即可
yarn.nodemanager.resource.system-reserved-memory-mb
# NodeManager使用CPU核数
yarn.nodemanager.resource.cpu-vcores
# 是否将虚拟核数当作CPU核数
yarn.nodemanager.resource.count-logical-processors-as-cores
# 虚拟核数和物理核数乘数,例如:4核8线程,该参数就应设为2
yarn.nodemanager.resource.pcores-vcores-multiplier
# 是否让yarn自己检测硬件进行配置
yarn.nodemanager.resource.detect-hardware-capabilities
# 是否开启物理内存检查限制container
yarn.nodemanager.pmem-check-enabled
# 是否开启虚拟内存检查限制container
yarn.nodemanager.vmem-check-enabled
# 虚拟内存物理内存比例
yarn.nodemanager.vmem-pmem-ratio      


# =======================Container容器相关========================
# 容器最小内存
yarn.scheduler.minimum-allocation-mb
# 容器最大内存
yarn.scheduler.maximum-allocation-mb
# 容器最小核数
yarn.scheduler.minimum-allocation-vcores
# 容器最大核数
yarn.scheduler.maximum-allocation-vcores

# 调度器详见yarn知识点

9、Hadoop综合调优

9.1 Hadoop小文件优化方法

HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,**一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。**小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源

Hadoop小文件解决方案有几种方案:

  • 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS(数据源头)
  • Hadoop Archive(存储方向):是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用
  • CombineTextInputFormat(计算方向):CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片
  • 开启uber模式,实现JVM重用(计算方向):默认情况下,每个Task任务都需要启动一个JVM来运行,如果Task任务计算的数据量很小,我们可以让同一个Job的多个Task运行在一个JVM中,不必为每个Task都开启一个JVM
bash 复制代码
# 未开启uber模式,在/input路径上上传多个小文件并执行wordcount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output2
# 观察控制台,观察http://hadoop103:8088/cluster
# 开启uber模式,在mapred-site.xml中添加如下配置
<!--  开启uber模式,默认关闭 -->
<property>
    <name>mapreduce.job.ubertask.enable</name>
    <value>true</value>
</property>

<!--mapreduce框架会认为是小任务的条件-->
<!-- uber模式中最大的mapTask数量,可向下修改  --> 
<property>
    <name>mapreduce.job.ubertask.maxmaps</name>
    <value>9</value>
</property>
<!-- uber模式中最大的reduce数量,可向下修改 -->
<property>
    <name>mapreduce.job.ubertask.maxreduces</name>
    <value>1</value>
</property>
<!-- uber模式中最大的输入数据量,默认使用dfs.blocksize 的值,可向下修改 -->
<property>
    <name>mapreduce.job.ubertask.maxbytes</name>
    <value></value>
</property>

# 分发配置
xsync mapred-site.xml
# 再次执行wordcount程序,已经观察

9.2 测试MapReduce计算性能

使用Sort程序评测MapReduce(注:一个虚拟机不超过150G磁盘尽量不要执行这段代码)

bash 复制代码
# 使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data
# 执行Sort程序
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data
# 验证数据是否真正排好序了
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data

9.3 企业开发场景案例

需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)

HDFS参数调优

bash 复制代码
# 修改:hadoop-env.sh
export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

分别修改hdfs-site.xml和修改core-site.xml

xml 复制代码
<!-- NameNode有一个工作线程池,默认值是10 -->
<property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
</property>


<!-- 配置垃圾回收时间为60分钟 -->
<property>
    <name>fs.trash.interval</name>
    <value>60</value>
</property>

分发配置:xsync hadoop-env.sh hdfs-site.xml core-site.xml

MapReduce参数调优

修改mapred-site.xml,修改完后分发

xml 复制代码
<!-- 环形缓冲区大小,默认100m -->
<property>
  <name>mapreduce.task.io.sort.mb</name>
  <value>100</value>
</property>

<!-- 环形缓冲区溢写阈值,默认0.8 -->
<property>
  <name>mapreduce.map.sort.spill.percent</name>
  <value>0.80</value>
</property>

<!-- merge合并次数,默认10个 -->
<property>
  <name>mapreduce.task.io.sort.factor</name>
  <value>10</value>
</property>

<!-- maptask内存,默认1g; maptask堆内存大小默认和该值大小一致mapreduce.map.java.opts -->
<property>
  <name>mapreduce.map.memory.mb</name>
  <value>-1</value>
  <description>The amount of memory to request from the scheduler for each    map task. If this is not specified or is non-positive, it is inferred from mapreduce.map.java.opts and mapreduce.job.heap.memory-mb.ratio. If java-opts are also not specified, we set it to 1024.
  </description>
</property>

<!-- matask的CPU核数,默认1个 -->
<property>
  <name>mapreduce.map.cpu.vcores</name>
  <value>1</value>
</property>

<!-- matask异常重试次数,默认4次 -->
<property>
  <name>mapreduce.map.maxattempts</name>
  <value>4</value>
</property>

<!-- 每个Reduce去Map中拉取数据的并行数。默认值是5 -->
<property>
  <name>mapreduce.reduce.shuffle.parallelcopies</name>
  <value>5</value>
</property>

<!-- Buffer大小占Reduce可用内存的比例,默认值0.7 -->
<property>
  <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
  <value>0.70</value>
</property>

<!-- Buffer中的数据达到多少比例开始写入磁盘,默认值0.66。 -->
<property>
  <name>mapreduce.reduce.shuffle.merge.percent</name>
  <value>0.66</value>
</property>

<!-- reducetask内存,默认1g;reducetask堆内存大小默认和该值大小一致mapreduce.reduce.java.opts -->
<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>-1</value>
  <description>The amount of memory to request from the scheduler for each    reduce task. If this is not specified or is non-positive, it is inferred
    from mapreduce.reduce.java.opts and mapreduce.job.heap.memory-mb.ratio.
    If java-opts are also not specified, we set it to 1024.
  </description>
</property>

<!-- reducetask的CPU核数,默认1个 -->
<property>
  <name>mapreduce.reduce.cpu.vcores</name>
  <value>2</value>
</property>

<!-- reducetask失败重试次数,默认4次 -->
<property>
  <name>mapreduce.reduce.maxattempts</name>
  <value>4</value>
</property>

<!-- 当MapTask完成的比例达到该值后才会为ReduceTask申请资源。默认是0.05 -->
<property>
  <name>mapreduce.job.reduce.slowstart.completedmaps</name>
  <value>0.05</value>
</property>

<!-- 如果程序在规定的默认10分钟内没有读到数据,将强制超时退出 -->
<property>
  <name>mapreduce.task.timeout</name>
  <value>600000</value>
</property>

Yarn参数调优

修改yarn-site.xml配置参数如下,最后分发

xml 复制代码
<!-- 选择调度器,默认容量 -->
<property>
  <description>The class to use as the resource scheduler.</description>
  <name>yarn.resourcemanager.scheduler.class</name>
  <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

<!-- ResourceManager处理调度器请求的线程数量,默认50;如果提交的任务数大于50,可以增加该值,但是不能超过3台 * 4线程 = 12线程(去除其他应用程序实际不能超过8) -->
<property>
  <description>Number of threads to handle scheduler interface.</description>
  <name>yarn.resourcemanager.scheduler.client.thread-count</name>
  <value>8</value>
</property>

<!-- 是否让yarn自动检测硬件进行配置,默认是false,如果该节点有很多其他应用程序,建议手动配置。如果该节点没有其他应用程序,可以采用自动 -->
<property>
  <description>Enable auto-detection of node capabilities such as
  memory and CPU.
  </description>
  <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
  <value>false</value>
</property>

<!-- 是否将虚拟核数当作CPU核数,默认是false,采用物理CPU核数 -->
<property>
  <description>Flag to determine if logical processors(such as
  hyperthreads) should be counted as cores. Only applicable on Linux
  when yarn.nodemanager.resource.cpu-vcores is set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true.
  </description>
  <name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
  <value>false</value>
</property>

<!-- 虚拟核数和物理核数乘数,默认是1.0 -->
<property>
  <description>Multiplier to determine how to convert phyiscal cores to
  vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
  is set to -1(which implies auto-calculate vcores) and
  yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The  number of vcores will be calculated as  number of CPUs * multiplier.
  </description>
  <name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
  <value>1.0</value>
</property>

<!-- NodeManager使用内存数,默认8G,修改为4G内存 -->
<property>
  <description>Amount of physical memory, in MB, that can be allocated 
  for containers. If set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
  automatically calculated(in case of Windows and Linux).
  In other cases, the default is 8192MB.
  </description>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>4096</value>
</property>

<!-- nodemanager的CPU核数,不按照硬件环境自动设定时默认是8个,修改为4个 -->
<property>
  <description>Number of vcores that can be allocated
  for containers. This is used by the RM scheduler when allocating
  resources for containers. This is not used to limit the number of
  CPUs used by YARN containers. If it is set to -1 and
  yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
  automatically determined from the hardware in case of Windows and Linux.
  In other cases, number of vcores is 8 by default.</description>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>4</value>
</property>

<!-- 容器最小内存,默认1G -->
<property>
  <description>The minimum allocation for every container request at the RM  in MBs. Memory requests lower than this will be set to the value of this  property. Additionally, a node manager that is configured to have less memory  than this value will be shut down by the resource manager.
  </description>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>1024</value>
</property>

<!-- 容器最大内存,默认8G,修改为2G -->
<property>
  <description>The maximum allocation for every container request at the RM  in MBs. Memory requests higher than this will throw an  InvalidResourceRequestException.
  </description>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>2048</value>
</property>

<!-- 容器最小CPU核数,默认1个 -->
<property>
  <description>The minimum allocation for every container request at the RM  in terms of virtual CPU cores. Requests lower than this will be set to the  value of this property. Additionally, a node manager that is configured to  have fewer virtual cores than this value will be shut down by the resource  manager.
  </description>
  <name>yarn.scheduler.minimum-allocation-vcores</name>
  <value>1</value>
</property>

<!-- 容器最大CPU核数,默认4个,修改为2个 -->
<property>
  <description>The maximum allocation for every container request at the RM  in terms of virtual CPU cores. Requests higher than this will throw an
  InvalidResourceRequestException.</description>
  <name>yarn.scheduler.maximum-allocation-vcores</name>
  <value>2</value>
</property>

<!-- 虚拟内存检查,默认打开,修改为关闭 -->
<property>
  <description>Whether virtual memory limits will be enforced for
  containers.</description>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value>
</property>

<!-- 虚拟内存和物理内存设置比例,默认2.1 -->
<property>
  <description>Ratio between virtual memory to physical memory when  setting memory limits for containers. Container allocations are  expressed in terms of physical memory, and virtual memory usage  is allowed to exceed this allocation by this ratio.
  </description>
  <name>yarn.nodemanager.vmem-pmem-ratio</name>
  <value>2.1</value>
</property>

最后执行程序

bash 复制代码
# 重启集群
sbin/stop-yarn.sh
sbin/start-yarn.sh
# 执行WordCount程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
# 观察Yarn任务执行页面:http://hadoop103:8088/cluster/apps

六、Hadoop高可用集群部署

1、 HA 概述

HA(High Availablity),即高可用(7*24 小时不中断服务),实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA

机制:HDFS 的 HA 和 YARN 的 HA。NameNode 主要在以下两个方面影响 HDFS 集群

  • NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启
  • NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用

HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode 很快的切换到另外一台机器。

2、HDFS-HA 集群搭建

2.1 集群规划

hadoop102 hadoop103 hadoop104
NameNode Secondarynamenode
DataNode DataNode DataNode

HA 的主要目的是消除 namenode 的单点故障,需要将 hdfs 集群规划成以下模样

hadoop102 hadoop103 hadoop104
NameNode NameNode NameNode
DataNode DataNode DataNode

2.2 HDFS-HA 核心问题

怎么保证三台 namenode 的数据一致?

  • Fsimage:让一台 nn 生成数据,让其他机器 nn 同步
  • Edits:需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性

怎么让同时只有一台 nn 是 active,其他所有是 standby 的?

  • 手动分配
  • 自动分配

2nn 在 ha 架构中并不存在,定期合并 fsimage 和 edtis 的活谁来干?

  • 由 standby 的 nn 来干

如果 nn 真的发生了问题,怎么让其他的 nn 上位干活?

  • 手动故障转移
  • 自动故障转移

3、HDFS-HA 手动模式

3.1 环境准备

首先按照之前的配置搭建好环境,在每个集群需要启动JournalNode

3.2 配置 HDFS-HA 集群

官网地址:https://hadoop.apache.org/

bash 复制代码
# 在 opt 目录下创建一个 ha 文件夹
cd /opt
sudo mkdir ha
sudo chown atguigu:atguigu /opt/ha
# 将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下(记得删除 data 和 log 目录)
cp -r /opt/module/hadoop-3.1.3 /opt/ha/

然后修改配置文件,这里windows可以使用sublime直接修改保存(File→SFTP/FTP→Browse Server,自行安装插件)

配置 core-site.xml

xml 复制代码
<configuration>
    <!-- 把多个 NameNode 的地址组装成一个集群 mycluster -->
    <property>
       <name>fs.defaultFS</name>
       <value>hdfs://mycluster</value>
   </property>
   <!-- 指定 hadoop 运行时产生文件的存储目录 -->
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/ha/hadoop-3.1.3/data</value>
   </property>
</configuration>

配置 hdfs-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed under the Apache License, Version 2.0 (the "License");
  you may not use this file except in compliance with the License.
  You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License. See accompanying LICENSE file.
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
  <!-- NameNode 数据存储目录 -->
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file://${hadoop.tmp.dir}/name</value>
  </property>
  <!-- DataNode 数据存储目录 -->
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file://${hadoop.tmp.dir}/data</value>
  </property>
  <!-- JournalNode 数据存储目录 -->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>${hadoop.tmp.dir}/jn</value>
  </property>
  <!-- 完全分布式集群名称 -->
  <property>
    <name>dfs.nameservices</name>
    <value>mycluster</value>
  </property>
  <!-- 集群中 NameNode 节点都有哪些,3之前只能有两个nn -->
  <property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2,nn3</value>
  </property>
  <!-- NameNode 的 RPC 通信地址 -->
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn1</name>
    <value>hadoop102:8020</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn2</name>
    <value>hadoop103:8020</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn3</name>
    <value>hadoop104:8020</value>
  </property>
  <!-- NameNode 的 http 通信地址 -->
  <property>
    <name>dfs.namenode.http-address.mycluster.nn1</name>
    <value>hadoop102:9870</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.mycluster.nn2</name>
    <value>hadoop103:9870</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.mycluster.nn3</name>
    <value>hadoop104:9870</value>
  </property>
  <!-- 指定 NameNode 元数据在 JournalNode 上的存放位置 -->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://hadoop102:8485;hadoop103:8485;hadoop104:8485/mycluster</value>
  </property>
  <!-- 访问代理类:client 用于确定哪个 NameNode 为 Active -->
  <property>
    <name>dfs.client.failover.proxy.provider.mycluster</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
  <!-- 配置隔离机制,即同一时刻只能有一台服务器对外响应 -->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
  </property>
  <!-- 使用隔离机制时需要 ssh 秘钥登录-->
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/atguigu/.ssh/id_rsa</value>
  </property>
</configuration>

最后分发配置好的 hadoop 环境到其他节点

bash 复制代码
# 其他节点先创建好目录修改权限
# 来到/opt目录
xsync ha/hadoop-3.1.3/

3.3 启动 HDFS-HA 集群

bash 复制代码
# 将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)
sudo vim /etc/profile.d/my_env.sh
# 将 HADOOP_HOME 部分改为如下
#HADOOP_HOME
export HADOOP_HOME=/opt/ha/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 刷新
source /etc/profile

# 在各个 JournalNode 节点上,输入以下命令启动 journalnode 服务
hdfs --daemon start journalnode
hdfs --daemon start journalnode
hdfs --daemon start journalnode
# 查看
jpsall

# 在[nn1]上,对其进行格式化,并启动
hdfs namenode -format
hdfs --daemon start namenode

# 在[nn2]和[nn3]上,同步 nn1 的元数据信息
hdfs namenode -bootstrapStandby

# 启动[nn2]和[nn3]
hdfs --daemon start namenode
# 打开9870界面,发现都是standby模式

# 在所有节点上,启动 datanode
hdfs --daemon start datanode

# 将[nn1]切换为 Active
hdfs haadmin -transitionToActive nn1

# 查看是否 Active
hdfs haadmin -getServiceState nn1

# 手动模式下需要所有节点都启动才能转换某个节点为active,否则容易脑裂

4、HDFS-HA 自动模式

4.1 自动故障转移工作机制

自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务

4.2 HDFS-HA 自动故障转移配置

首先配置hadoop集群的配置文件,在 hdfs-site.xml 中增加

xml 复制代码
<!-- 启用 nn 故障自动转移 -->
<property>
  <name>dfs.ha.automatic-failover.enabled</name>
  <value>true</value>
</property>

在 core-site.xml 文件中增加

xml 复制代码
<!-- 指定 zkfc 要连接的 zkServer 地址 -->
<property>
  <name>ha.zookeeper.quorum</name>
  <value>hadoop102:2181,hadoop103:2181,hadoop104:2181</value>
</property>

修改后分发配置文件

bash 复制代码
xsync hadoop/
# 下一步启动
# 关闭所有 HDFS 服务
stop-dfs.sh

# zookeeper可以参考zookeeper文章,不过搭建也不难
# 启动 Zookeeper 集群,也可以单节点(集群的话三台都要启动,这条命令是脚本)
zkServer.sh start
# 启动 Zookeeper 以后,然后再初始化 HA 在 Zookeeper 中状态
hdfs zkfc -formatZK

# 启动 HDFS 服务
start-dfs.sh

# 可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容
[zk: localhost:2181(CONNECTED) 7] get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock

# 将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化
kill -9 namenode 的进程 id

如果杀死进程不能切换active的话,可以修改下hdfs.site.xml里面的隔离方法

xml 复制代码
<property>
   <name>dfs.ha.fencing.methods</name>
   <value>sshfence</value>
   <value>shell(true)</value>
</property>

可以参考:https://blog.csdn.net/chanyue123/article/details/108637181

4.3 解决 NN 连接不上 JN 的问题

自动故障转移配置好以后,然后使用 start-dfs.sh 群起脚本启动 hdfs 集群,有可能会遇到 NameNode 起来一会后,进程自动关闭的问题。

查看报错日志,可分析出报错原因是因为 NameNode 连接不上 JournalNode,而利用 jps 命令查看到三台 JN 都已经正常启动,为什么 NN 还是无法正常连接到 JN 呢?这因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN,再启动 DN,然后再启动 JN,并且默认的 rpc 连接参数是重试次数为 10,每次重试的间隔是 1s,也就是说启动完 NN以后的 10s 中内,JN 还启动不起来,NN 就会报错了

core-default.xml 里面有两个参数如下

xml 复制代码
<!-- NN 连接 JN 重试次数,默认是 10 次 -->
<property>
 <name>ipc.client.connect.max.retries</name>
 <value>10</value>
</property>
<!-- 重试时间间隔,默认 1s -->
<property>
 <name>ipc.client.connect.retry.interval</name>
 <value>1000</value>
</property>

解决方案:遇到上述问题后,可以稍等片刻,等 JN 成功启动后,手动启动下三台,也可以在 core-site.xml 里面适当调大上面的两个参数

bash 复制代码
hdfs --daemon start namenode

5、YARN-HA 配置

官方文档:https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

5.1 环境与核心问题

如果当前 active rm 挂了,其他 rm 怎么将其他 standby rm 上位

  • 核心原理跟 hdfs 一样,利用了 zk 的临时节点

当前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑

  • rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取,然后接着跑

5.2 配置 YARN-HA 集群

配置yarn-site.xml

xml 复制代码
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <!-- 启用 resourcemanager ha -->
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
  </property>
  <!-- 声明两台 resourcemanager 的地址 -->
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>cluster-yarn1</value>
  </property>
  <!--指定 resourcemanager 的逻辑列表-->
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2,rm3</value>
  </property>
  <!-- ========== rm1 的配置 ========== -->
  <!-- 指定 rm1 的主机名 -->
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>hadoop102</value>
  </property>
  <!-- 指定 rm1 的 web 端地址 -->
  <property>
    <name>yarn.resourcemanager.webapp.address.rm1</name>
    <value>hadoop102:8088</value>
  </property>
  <!-- 指定 rm1 的内部通信地址 -->
  <property>
    <name>yarn.resourcemanager.address.rm1</name>
    <value>hadoop102:8032</value>
  </property>
  <!-- 指定 AM 向 rm1 申请资源的地址 -->
  <property>
    <name>yarn.resourcemanager.scheduler.address.rm1</name> 
    <value>hadoop102:8030</value>
  </property>
  <!-- 指定供 NM 连接的地址 --> 
  <property>
    <name>yarn.resourcemanager.resource-tracker.address.rm1</name>
    <value>hadoop102:8031</value>
  </property>
  <!-- ========== rm2 的配置 ========== -->
  <!-- 指定 rm2 的主机名 -->
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>hadoop103</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address.rm2</name>
    <value>hadoop103:8088</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address.rm2</name>
    <value>hadoop103:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address.rm2</name>
    <value>hadoop103:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address.rm2</name>
    <value>hadoop103:8031</value>
  </property>
  <!-- ========== rm3 的配置 ========== -->
  <!-- 指定 rm1 的主机名 -->
  <property>
    <name>yarn.resourcemanager.hostname.rm3</name>
    <value>hadoop104</value>
  </property>
  <!-- 指定 rm1 的 web 端地址 -->
  <property>
    <name>yarn.resourcemanager.webapp.address.rm3</name>
    <value>hadoop104:8088</value>
  </property>
  <!-- 指定 rm1 的内部通信地址 -->
  <property>
    <name>yarn.resourcemanager.address.rm3</name>
    <value>hadoop104:8032</value>
  </property>
  <!-- 指定 AM 向 rm1 申请资源的地址 -->
  <property>
    <name>yarn.resourcemanager.scheduler.address.rm3</name> 
    <value>hadoop104:8030</value>
  </property>
  <!-- 指定供 NM 连接的地址 --> 
  <property>
    <name>yarn.resourcemanager.resource-tracker.address.rm3</name>
    <value>hadoop104:8031</value>
  </property>
  <!-- 指定 zookeeper 集群的地址 --> 
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>hadoop102:2181,hadoop103:2181,hadoop104:2181</value>
  </property>
  <!-- 启用自动恢复 --> 
  <property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
  </property>
  <!-- 指定 resourcemanager 的状态信息存储在 zookeeper 集群 --> 
  <property>
    <name>yarn.resourcemanager.store.class</name> 
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
  </property>
  <!-- 环境变量的继承 -->
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  </property>
</configuration>

分发并执行

bash 复制代码
# 同步更新其他节点的配置信息
xsync hadoop/

# 启动 YARN
# 在 hadoop102 或者 hadoop103 中执行
start-yarn.sh
# 查看服务状态
yarn rmadmin -getServiceState rm1
# 可以去 zkCli.sh 客户端查看 ResourceManager 选举锁节点内容

zkCli.sh
[zk: localhost:2181(CONNECTED) 16] get -s /yarn-leader-election/cluster-yarn1/ActiveStandbyElectorLock

# web 端查看 hadoop102:8088 和 hadoop103:8088 的 YARN 的状态

5.3 HADOOP HA 的最终规划

hadoop102 hadoop103 hadoop104
NameNode NameNode NameNode
DataNode DataNode DataNode
JournalNode JournalNode JournalNode
Zookeeper Zookeeper Zookeeper
ZKFC ZKFC ZKFC
相关推荐
苍老流年7 小时前
Hive中各种Join的实现
数据仓库·hive·hadoop
EDG Zmjjkk8 小时前
Hive 查询(详细实操版)
数据仓库·hive·hadoop
Hsu_kk9 小时前
Hive 查询各类型专利 Top 10 申请人及对应的专利申请数
数据仓库·hive·hadoop
大数据编程之光9 小时前
Hive 查询各类型专利 top10 申请人及专利申请数
大数据·数据仓库·hive·hadoop
杰克逊的日记9 小时前
Hive详解
数据仓库·hive·hadoop
上辈子杀猪这辈子学IT10 小时前
【Zookeeper集群搭建】安装zookeeper、zookeeper集群配置、zookeeper启动与关闭、zookeeper的shell命令操作
linux·hadoop·zookeeper·centos·debian
Hsu_kk12 小时前
Hive 查询用户连续三天登录的所有记录
数据仓库·hive·hadoop
kakwooi15 小时前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
windy1a15 小时前
【c知道】Hadoop工作原理。
hadoop
油头少年_w21 小时前
大数据导论及分布式存储HadoopHDFS入门
大数据·hadoop·hdfs