hadoop、hive、DBeaver的环境搭建及使用

本文主要介绍hadoop、hive的结构及使用，具体的操作步骤见最后的附件；

1、当客户端发起读写数据请求时首先到 NameNode，NameNode审核权限、判断剩余空间，然后告知客户端读写的DataNode地址，客户端向指定的DataNode发送数据包，被写入数据的DataNode同时完成数据副本的复制工作，将其接收的数据分发给其它DataNode

2、hdfs以biock(块)为单位存储文件，每个块默认256M，可调整块的大小，每个块可创建多个(可设置)备份来保证存储文件的安全性

3、edits文件：是一个流水账文件，记录hdfs中的每一次操作，也记录了文件和block的对应关系，一个文件如果经过多次操作，在edits中存在多条记录、检索文件时效率比较低，所以就有了edits文件的合并

4、edits文件合并后的文件叫做fsimage，只保留文件的最终结果，合并文件的操作是SecondaryNameNode来完成

NameNode基于edits和FSImage的配合，完成整个文件系统文件的管理。

1、ResourceManager：整个集群的资源调度者，负责协调调度各个程序所需的资源。

2、NodeManager：单个服务器的资源调度者，负责调度单个服务器上的资源提供给应用程序使用。

3、ProxyServer：应用程序代理，yarn在运行时对外提供了一个web ui站点，代理服务器的功能就是最大限度保障对WEB UI的访问是安全的

4、JobHistoryServer：历史服务器，应用程序历史信息记录服务，日志是在容器中产生的，分布在不同的服务器中难以查询，JobHistoryServer抓取所有的日志在web ui中展示

单个任务在单个服务器上需要的资源称之为容器(container)，NodeManager预先占有这些资源供任务使用；

MapReduce提供了两个接口：

Map功能接口提供了"分散"的功能，由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总（聚合）"的功能，将分布式的处理结果汇总统计

MapReduce 代码比较老，难以学习使用，在MapReduce基础上推出了一些新的工具，底层都是MapReduce在执行

元数据管理：metastore服务，用于存储元数据，如通过load等命令将文本文件存储在mysql等数据库中

sql解析器：将SQL语句翻译成 MapReduce 程序运行

hive是单机部署，但是可以使用分布式的mapReduce进行计算

启动元数据管理服务

前台启动：bin/hive --service metastore

后台启动：nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &

启动客户端，二选一，启动后就可以通过DBeaver或DataGrid等工具连接hive进行操作了

Hive Shell方式（可以直接写SQL）： bin/hive

Hive ThriftServer方式（不可直接写SQL，需要外部客户端链接使用）： bin/hive --service hiveserver2

数据库中的列和文本文件中的列是一一对应的，所以要指定列和列之间的分隔符，hive默认是以"\001"作为分隔符，也可以手动指定

hive内部表和外部表：

内部表类似数据库中的表，表和数据是一体的，删除表后数据也删除了

外部表是表和数据是独立的，创建表时指定了目录，那这个目录中的文本文件就默认成为了表数据，删除表后只是表删除了，数据还在

**hive中有集合列：**array,map，struct 使用这些列时需要指定集合中不同元素之间的分隔符

具体操作步骤及hive的类sql操作见下面附件：