【分布式数据仓库Hive】HivQL的使用

目录

一、Hive的基本操作

[1. 使用Hive创建数据库test](#1. 使用Hive创建数据库test)

[2. 检索数据库(模糊查看),检索形如'te*'的数据库](#2. 检索数据库(模糊查看),检索形如’te*’的数据库)

[3. 查看数据库test详情](#3. 查看数据库test详情)

[4. 删除数据库test](#4. 删除数据库test)

[5. 创建一个学生数据库Stus,在其中创建一个内部表Student,表格包含两列:学号(字符型),姓名(字符型)](#5. 创建一个学生数据库Stus,在其中创建一个内部表Student,表格包含两列:学号(字符型),姓名(字符型))

[6. 修改表student表结构,添加新的一列:年龄,整数型](#6. 修改表student表结构,添加新的一列:年龄,整数型)

[7. 创建一个表格名为employees,列名和数据类型根据常用习惯系定义,其表结构能载入如下格式的数据,并映射为表结构对应的字段。](#7. 创建一个表格名为employees,列名和数据类型根据常用习惯系定义,其表结构能载入如下格式的数据,并映射为表结构对应的字段。)

二、Sogou日志数据分析

[1. 统计每个uid的查询次数](#1. 统计每个uid的查询次数)

[2. 搜索关键字内容包含'仙剑'超过三次的用户id](#2. 搜索关键字内容包含‘仙剑’超过三次的用户id)

[3. 统计不重复的uid的行数](#3. 统计不重复的uid的行数)


一、Hive的基本操作

1. 使用Hive创建数据库test

sql 复制代码
create database test;

show databases;  //查看数据库

2. 检索数据库(模糊查看),检索形如'te*'的数据库

sql 复制代码
show database like 'te*';

3. 查看数据库test详情

sql 复制代码
describe database test;

4. 删除数据库test

sql 复制代码
drop database test;

5. 创建一个学生数据库Stus,在其中创建一个内部表Student,表格包含两列:学号(字符型),姓名(字符型)

sql 复制代码
create database Stus;

use Stus;

create table student(
sno string,
sname string
);

6. 修改表student表结构,添加新的一列:年龄,整数型

sql 复制代码
alter table student add column(sage int);

7. 创建一个表格名为employees,列名和数据类型根据常用习惯系定义,其表结构能载入如下格式的数据,并映射为表结构对应的字段。

1,hengdian,1000.0,13872787890,Zhejiang

2,hengqin,1234.0,18739292798,Guangdong

3,baishui,8797.0,13490980090,Hunan

写出创建表格的语句,并使用load语句将上述数据内容载入表结构,该数据以文本文件的形式存放在本地文件系统,请自行用vi编辑器编辑。

data.txt

创建表的语法:

sql 复制代码
create table employees(
eno string,
ename string,
esal float,
phone string,
address string )
row format delimited 
fields terminated by ',' ;
sql 复制代码
descripe employees;

导入本地数据语法:

sql 复制代码
load data local inpath '/home/gdpu/data.txt' into table employees;
sql 复制代码
select * from employees; 

二、Sogou日志数据分析

请完成创建外部表格并关联sogou的500w数据,使用HiveQL完成下列数据分析。写出Hive语句和执行结果。

sql 复制代码
create table sogou2024 (
times string,
uid string,
keyword string,
ranks int,
orders int,
URL string )
row format delimited 
fields terminated by '\t';
sql 复制代码
load data inpath 'hdfs://hadoop100:8020/sogou.500w.utf8' into table sogou2024;
sql 复制代码
select * from sogou2024 limit 10;  //验证是否导入成功

1. 统计每个uid的查询次数

sql 复制代码
select uid, count(*) as cnt from sogou2024 group by uid;

下面的截图是执行结果的最后一部分,结果有135万多行。

2. 搜索关键字内容包含'仙剑'超过三次的用户id

sql 复制代码
select uid 
from sogou2024 
where keyword like'%仙剑%'group by uid 
having count(*) > 3 ;

运行截图 :

3. 统计不重复的uid的行数

sql 复制代码
select count(distinct uid) as unique_uid_count 

from sogou2024;

运行截图:

  1. 统计搜索的关键字词频,找出查询频度超过20的关键词和其频度,按照频度从高到低排列。
sql 复制代码
select keyword , count(*) as frequency

from sogou2024

group by keyword

having count(*) > 20

order by frequency desc;

运行截图:

相关推荐
WX187021128731 小时前
在分布式光伏电站如何进行电能质量的治理?
分布式
Qspace丨轻空间2 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客3 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata4 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
不能再留遗憾了4 小时前
RabbitMQ 高级特性——消息分发
分布式·rabbitmq·ruby
水豚AI课代表4 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
茶馆大橘4 小时前
微服务系列六:分布式事务与seata
分布式·docker·微服务·nacos·seata·springcloud
材料苦逼不会梦到计算机白富美7 小时前
golang分布式缓存项目 Day 1
分布式·缓存·golang
拓端研究室TRL7 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗7 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书