Hive06_基础查询

HIVE 查询语句

1 查询语句语法:

sql 复制代码
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

1.1 基本查询(Select...From)

1 全表和特定列查询

数据准备

dept:

复制代码
10 ACCOUNTING 1700
20 RESEARCH 1800
30 SALES 1900
40 OPERATIONS 1700

emp:

复制代码
7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00 20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10

(1)创建部门表

sql 复制代码
create table if not exists dept(
deptno int,
dname string,
loc int
)
row format delimited fields terminated by ' ';

(2)创建员工表

sql 复制代码
create table if not exists emp(
empno int,
ename string,
job string,
mgr int,
hiredate string, 
sal double, 
comm double,
deptno int)
row format delimited fields terminated by ' ';

(3)导入数据

sql 复制代码
load data local inpath '/usr/soft/datas/dept.txt' into table dept;
load data local inpath '/usr/soft/datas/emp.txt' into table emp;

1)全表查询

sql 复制代码
hive (default)> select * from emp;
hive (default)> 
select 
	empno,ename,job,mgr,hiredate,sal,comm,deptno 
from 
	emp; 

2)选择特定列查询

sql 复制代码
hive (default)> select empno , ename from emp;

注意:
(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性

2 列别名

1)重命名一个列
2)便于计算
3)紧跟列名,也可以在列名和别名之间加入关键字'AS'
4)案例实操

查询名称和部门

sql 复制代码
hive (default)> select ename AS name, deptno dn from emp;
3 算术运算符

案例实操:查询出所有员工的薪水后加 1 显示。

sql 复制代码
hive (default)> select sal +1 from emp;
4 常用函数

1)求总行数(count)

sql 复制代码
hive (default)> select count(*) cnt from emp;

2)求工资的最大值(max)

sql 复制代码
hive (default)> select max(sal) max_sal from emp;

3)求工资的最小值(min)

sql 复制代码
hive (default)> select min(sal) min_sal from emp;

4)求工资的总和(sum)

sql 复制代码
hive (default)> select sum(sal) sum_sal from emp; 

5)求工资的平均值(avg)

sql 复制代码
hive (default)> select avg(sal) avg_sal from emp;
5 Limit 语句

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。

sql 复制代码
hive (default)> select * from emp limit 5;

hive (default)> select * from emp limit 2;
6 Where 语句

1)使用 WHERE 子句,将不满足条件的行过滤掉
2)WHERE 子句紧随 FROM 子句
3)案例实操

查询出薪水大于 1000 的所有员工

sql 复制代码
hive (default)> select * from emp where sal >1000;

注意:where 子句中不能使用字段别名

7 比较运算符(Between/In/ Is Null)

1)下面表中描述了谓词操作符,这些操作符同样可以用于 JOIN...ON 和 HAVING 语句中。

2)案例实操
(1)查询出薪水等于 5000 的所有员工

sql 复制代码
hive (default)> select * from emp where sal =5000;

(2)查询工资在 500 到 1000 的员工信息

sql 复制代码
hive (default)> select * from emp where sal between 500 and 1000;

(3)查询 comm 为空的所有员工信息

sql 复制代码
hive (default)> select * from emp where comm is null;

(4)查询工资是 1500 或 5000 的员工信息

sql 复制代码
hive (default)> select * from emp where sal IN (1500, 5000);

注意:where 子句中不能使用字段别名

2 模糊查询

2.1 Like RLike

1)使用 LIKE 运算选择类似的值
2)选择条件可以包含字符或数字:

% 代表零个或多个字符(任意个字符)。

_ 代表一个字符。

3)RLIKE 子句

​ RLIKE 子句是 Hive 中这个功能的一个扩展,其可以通过 Java 的正则表达式这个更强大

​ 的语言来指定匹配条件。

4)案例实操

(1)查找名字以 A 开头的员工信息

sql 复制代码
hive (default)> select * from emp where ename LIKE 'A%';

(2)查找名字中第二个字母为 A 的员工信息

sql 复制代码
hive (default)> select * from emp where ename LIKE '_A%';

(3)查找名字中带有 A 的员工信息

sql 复制代码
hive (default)> select * from emp where ename RLIKE '[A]';

3 逻辑运算符(And/Or/Not)

案例实操

(1)查询薪水大于 1000,部门是 30

sql 复制代码
hive (default)> select * from emp where sal>1000 and deptno=30;

(2)查询薪水大于 1000,或者部门是 30

sql 复制代码
hive (default)> select * from emp where sal>1000 or deptno=30; 

(3)查询除了 20 部门和 30 部门以外的员工信息

sql 复制代码
hive (default)> select * from emp where deptno not IN(30, 20); 

4 分组

1)Group By 语句

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然
后对每个组执行聚合操作。

1)案例实操:

(1)计算 emp 表每个部门的平均工资

sql 复制代码
hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;

(2)计算 emp 每个部门中每个岗位的最高薪水

sql 复制代码
hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t  group by t.deptno, t.job;
2)Having 语句

1)having 与 where 不同点
(1)where 后面不能写分组函数,而 having 后面可以使用分组函数。
(2)having 只用于 group by 分组统计语句。

2)案例实操

求每个部门的平均工资

sql 复制代码
hive (default)> select deptno, avg(sal) from emp group by deptno;

求每个部门的平均薪水大于 2000 的部门

sql 复制代码
hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

1)having 与 where 不同点
(1)where 后面不能写分组函数,而 having 后面可以使用分组函数。
(2)having 只用于 group by 分组统计语句。

2)案例实操

求每个部门的平均工资

sql 复制代码
hive (default)> select deptno, avg(sal) from emp group by deptno;

求每个部门的平均薪水大于 2000 的部门

sql 复制代码
hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;
相关推荐
计算机编程小咖35 分钟前
《基于大数据的农产品交易数据分析与可视化系统》选题不当,毕业答辩可能直接挂科
java·大数据·hadoop·python·数据挖掘·数据分析·spark
.Shu.38 分钟前
git实战(7)git常用命令速查表
大数据·git
软件开发明哥1 小时前
BigData大数据应用开发学习笔记(03)离线处理--数据仓库Hive
大数据
haidizym2 小时前
质谱数据分析环节体系整理
大数据·人工智能·数据分析·ai4s
2501_924890523 小时前
商超场景徘徊识别误报率↓79%!陌讯多模态时序融合算法落地优化
java·大数据·人工智能·深度学习·算法·目标检测·计算机视觉
2401_891409267 小时前
商品与股指类ETF期权买卖五档Tick分钟级历史行情数据分析
大数据·#基准指标动态·#level2毫秒级tick流·#美股数据获取方案·#期货期权合约行情
武子康7 小时前
大数据-76 Kafka 从发送到消费:Kafka 消息丢失/重复问题深入剖析与最佳实践
大数据·后端·kafka
livemetee15 小时前
Flink2.0学习笔记:使用HikariCP 自定义sink实现数据库连接池化
大数据·数据库·笔记·学习·flink
人大博士的交易之路15 小时前
龙虎榜——20250822
大数据·数据挖掘·数据分析·缠中说禅·龙虎榜·道琼斯结构
青云交1 天前
Java 大视界 -- Java 大数据在智能安防人脸识别系统中的活体检测与防伪技术应用
java·大数据·生成对抗网络·人脸识别·智能安防·防伪技术·活体测试