data:image/s3,"s3://crabby-images/ae622/ae6225e7b1ee93873f1cd7f8d2e8cbf26fc01a32" alt=""
data:image/s3,"s3://crabby-images/4ea21/4ea21f521b2eac31dfb859be12e7004986a4e31f" alt=""
Hive架构
Hive部署
VMware虚拟机部署
一、在node1节点安装mysql数据库
二、配置Hadoop
三、下载 解压Hive
四、提供mysql Driver驱动
五、配置Hive
六、初始化元数据库
七、启动Hive(Hadoop用户)
chown -R hadoop:hadoop apache-hive-3.1.3-bin hive
阿里云部署
一、创建云数据库库
二、配置Hive
数据库连接地址粘贴到配置文件中
通过yum install -y mysql 安装mysql客户端,用于mysql命令的输入
UCloud云部署
一、创建UDB数据库
二、创建一个Hive数据库(需要通过yum install -y mysql提前安装命令)
三、初始化
============================================================
Hive操作
通过ps -ef | grep 40991更详细查看
或者通过jps查看
data:image/s3,"s3://crabby-images/7837c/7837c9c05f72862b06f13e30f98c1a0286a1a4b3" alt=""
通过浏览器可以查看
Hive客户端
data:image/s3,"s3://crabby-images/168ae/168aea7315cbe19f644dc477b6cd5a1f2c0de806" alt=""
启动Hive客户端两种方式:
①、bin/hive即Hive的Shell客户端,直接写SQL
②、bin/hive --service hiveserver2 HiveServer2属于Hive内置的一个ThriftServer服务,提供Thrift端口供其他客户端链接:
可以链接ThriftServer的客户端有:
- Hive内置的beeline客户端工具(命令行工具)
- 第三方图形化SQL工具DataGrip 或DBeaver或者Navicat
data:image/s3,"s3://crabby-images/540d3/540d32d9a671579a799bd5dc3df727c616c02d6f" alt=""
HiveServer2 & Beeline(内置客户端)
①、启动beeline
②、连接hive2
DataGrip & DBeaver(第三方客户端)
①、DataGrip使用
②、进行连接
③、写SQL语句
①、DBeaver使用
②、构建驱动
删除原来的驱动
添加自己本地下载好的文件
③、写好SQL,回车可以运行
数据库操作
表分类:
内部表
sql
create table myhive.stu(id int,name string); # 在myhive数据库中创建stu表
# 指定分隔创建表 避免在下面查看表内容出现id和name不可见字符导致的紧凑
create table if not exists stu2(id int,name string) row format delimited fields terminated by '\t';
insert into myhive.stu values(1,'jordan'),(2,"kobe");
data:image/s3,"s3://crabby-images/22d73/22d73f0eec79ea7bb9fdd4148b8a5fa691face0d" alt=""
外部表
一、将数据上传到外部表所在的目录(先有表,再有数据)
二、先存在数据,后创建表
两者对比:
内外部表转换:
①、先查看表类型
②、转换
数据的导入:
①、使用LOAD语法,从外部将数据加载到Hive内
sql
CREATE TABLE myhive.test_load(
dt string comment '时间(时分秒)',
user_id string comment '用户ID',
word string comment '搜索词',
url string comment '用户访问地址'
) comment '搜索引擎日志表' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
data:image/s3,"s3://crabby-images/24cf5/24cf55022a6d1e687cf4cb62068e4b9bb1e6eb6c" alt=""
bash
# 本地linux系统上传
load data local inpath '/home/hadoop/search_log.txt' into table myhive.test_load;
# 本质上是文件移动
load data inpath '/tmp/search_log.txt' overwrite into table myhive.test_load
【基于HDFS进行load加载数据,元数据文件会消失(本质是被移动到表所在的目录中)】
②、从其他表加载数据
数据的导出:
①、将hive表中的数据导出到其他任意目录,例如linux本地磁盘,hdfs,mysql等
②、通过hive shell方式导出
分区表
data:image/s3,"s3://crabby-images/89c31/89c311dd72f76587ac4b51ff5f5d30188a3beb50" alt=""
构建分区表
分桶表
分桶表创建
data:image/s3,"s3://crabby-images/64257/64257b841955b96fef511aa7c42106269a7ced55" alt=""
修改表操作
复杂类型
data:image/s3,"s3://crabby-images/70c0a/70c0ad191a4d1862d1adf306523124e7707e7d17" alt=""
array数组
map映射
struct结构
data:image/s3,"s3://crabby-images/ab67a/ab67a5b5a787bcbb91871478cdcf494ae9da4dcc" alt=""
常用的基本查询
正则表达式
UNION联合
随机采样
data:image/s3,"s3://crabby-images/4b4fb/4b4fbc250760fc59dbc1e0e35b73017e8beac58c" alt=""
虚拟列
函数
data:image/s3,"s3://crabby-images/f7c75/f7c75996fd1cb002d289025bee1235abbc1c92c1" alt=""
案例:
一、需求:
数据
二、ETL数据清洗:
三、指标
四、可视化
①、下载FineBI
②、将Hive驱动包放到FineBI安装目录下,以及安装隔离插件
③、建立数据库连接
④、构建数据集(选择数据库表)
data:image/s3,"s3://crabby-images/cdfad/cdfad56f18a7ae8acc941e0769306bbb1da1f115" alt=""
添加组件和仪表盘