Hive基础知识(十二):Hive的基本查询

1. 全表和特定列查询

0)数据准备

原始数据

复制代码
dept:
10 ACCOUNTING 1700
20 RESEARCH 1800
30 SALES 1900
40 OPERATIONS 1700

emp:
7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00  20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 8888 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10

(1)创建部门表

复制代码
create table if not exists dept(
deptno int,
dname string,
loc int
)
row format delimited fields terminated by '\t';

(2)创建员工表

复制代码
create table if not exists emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';

(3)导入数据

复制代码
load data local inpath '/home/zzdq/dept.txt' into table dept;
load data local inpath '/home/zzdq/emp.txt' into table emp;

1)全表查询

复制代码
hive (default)> select * from emp; 
hive (default)> select empno,ename,job,mgr,hiredate,sal,comm,deptno from  emp ;

2)选择特定列查询

复制代码
hive (default)> select empno, ename from emp;

注意:

(1)SQL 语言大小写不敏感。

(2)SQL 可以写在一行或者多行

(3)关键字不能被缩写也不能分行

(4)各子句一般要分行写。

(5)使用缩进提高语句的可读性。

2. 列别名

1)重命名一个列

2)便于计算

3)紧跟列名,也可以在列名和别名之间加入关键字'AS'

4)案例实操

查询名称和部门

复制代码
hive (default)> select ename as name,deptno as dept from emp;

3. 算术运算符

案例实操:查询出所有员工的薪水后加1 显示。

复制代码
hive (default)> select mgr+100 from emp;

4. 常用函数

1)求总行数(count),这个有MR生成

复制代码
hive (default)> select count(*) cnt from emp; 

2)求工资的最大值(max),这个有MR生成

复制代码
hive (default)> select max(mgr) from emp;

3)求工资的最小值(min)这个有MR生成

复制代码
hive (default)> select min(mgr) from emp;

4)求工资的总和(sum)这个有MR生成

复制代码
hive (default)> select sum(mgr) from emp;

5)求工资的平均值(avg)这个有MR生成

复制代码
hive (default)> select avg(mgr) avg_sql from emp;

5. Limit 语句

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。

复制代码
hive (default)> select * from emp limit 5;
hive (default)> select * from emp limit 2;

6. Where 语句

1)使用 WHERE 子句,将不满足条件的行过滤掉

2)WHERE 子句紧随 FROM 子句

3)案例实操

查询出薪水大于1000 的所有员工

复制代码
hive (default)> select * from emp where sal >1000; 

注意:where 子句中不能使用字段别名。

7. 比较运算符(Between/In/ Is Null)

1)下面表中描述了谓词操作符,这些操作符同样可以用于 JOIN...ON 和 HAVING 语句中。

操作符 支持的数据类型 描述
A=B 基本数据类型 如果A等于B则返回TRUE,反之返回FALSE
A<=>B 基本数据类型 如果A和B都为NULL,则返回TRUE,如果一边为NULL,返回False
A<>B, A!=B 基本数据类型 A或者B为NULL则返回NULL;如果A不等于B,则返回TRUE,反之返回FALSE
A<B 基本数据类型 A或者B为NULL,则返回NULL;如果A小于B,则返回TRUE,反之返回FALSE
A<=B 基本数据类型 A或者B为NULL,则返回NULL;如果A小于等于B,则返回TRUE,反之返回FALSE
A>B 基本数据类型 A或者B为NULL,则返回NULL;如果A大于B,则返回TRUE,反之返回FALSE
A>=B 基本数据类型 A或者B为NULL,则返回NULL;如果A大于等于B,则返回TRUE,反之返回FALSE
A [NOT] BETWEEN B AND C 基本数据类型 如果A,B或者C任一为NULL,则结果为NULL。 如果A的值大于等于B而且小于或等于C,则结果为TRUE,反之为FALSE。 如果使用NOT关键字则可达到相反的效果。
A IS NULL 所有数据类型 如果A等于NULL,则返回TRUE,反之返回FALSE
A IS NOT NULL 所有数据类型 如果A不等于NULL,则返回TRUE,反之返回FALSE
IN(数值1,数值2) 所有数据类型 使用IN运算显示列表中的值
A [NOT] LIKE B string类型 B是一个SQL下的简单正则表达式,也叫通配符模式, 如果A与其匹配的话,则返回TRUE;反之返回FALSE。 B的表达式说明如下: 'x%'表示A必须以字母'x'开头, '%x'表示A必须以字母'x'结尾,而'%x%'表示A包含有字母'x', 可以位于开头,结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。
A RLIKE B, A REGEXP B string类型 B 是基于 java 的正则表达式,如果 A 与其匹配, 则返回 TRUE;反之返回 FALSE。 匹配使用的是 JDK 中的正则表达式接口实现的, 因为正则也依据其中的规则。 例如,正则表达式必须和整个字符串 A 相匹配, 而不是只需与其字符串匹配。

2)案例实操

(1)查询出薪水等于5000 的所有员工

复制代码
hive (default)> select * from emp where mgr = 7902;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7369  SMITH  CLERK 7902 1980-12-17 800.0 20.0  NULL
Time taken: 0.285 seconds, Fetched: 1 row(s)

(2)查询工资在500 到1000 的员工信息

复制代码
hive (default)> select * from emp where mgr between 7500 and 7700;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7788  SCOTT  ANALYST 7566 1987-4-19 3000.0 20.0  NULL
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
7900  JAMES  CLERK 7698 1981-12-3 950.0 30.0  NULL
7902  FORD  ANALYST 7566 1981-12-3 3000.0 20.0  NULL
Time taken: 0.576 seconds, Fetched: 7 row(s)

(3)查询 comm 为空的所有员工信息

复制代码
hive (default)> select * from emp where comm is null;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7839  KING  PRESIDENT  NULL 5000.00 10.0  NULL  NULL
Time taken: 0.229 seconds, Fetched: 1 row(s)

(4)查询工资是1500 或5000 的员工信息

复制代码
hive (default)> select * from emp where sal in (1500,2600);
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.176 seconds, Fetched: 1 row(s)

8. Like 和 RLike

1)使用 LIKE 运算选择类似的值

2)选择条件可以包含字符或数字: %代表零个或多个字符(任意个字符)。 _ 代表一个字符。

3)RLIKE子句 RLIKE 子句是 Hive 中这个功能的一个扩展,其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。

4)案例实操

(1)查找名字以 A 开头的员工信息 hive (default)> select * from emp where ename LIKE 'A%';

(2)查找名字中第二个字母为 A 的员工信息 hive (default)> select * from emp where ename LIKE '_A%';

(3)查找名字中带有 A 的员工信息 hive (default)> select * from emp where ename RLIKE '[A]';

9. 逻辑运算符(And/Or/Not)

1)案例实操

(1)查询薪水大于1000,部门是30

复制代码
hive (default)> select * from emp where sal>1000 and deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.696 seconds, Fetched: 4 row(s)

(2)查询薪水大于1000,或者部门是30

复制代码
hive (default)> select * from emp where sal>1000 or deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7566  JONES  MANAGER 7839 1981-4-2 2975.0 20.0  NULL
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7698  BLAKE  MANAGER 7839 1981-5-1 2850.0 30.0  NULL
7782  CLARK  MANAGER 7839 1981-6-9 2450.0 10.0  NULL
7788  SCOTT  ANALYST 7566 1987-4-19 3000.0 20.0  NULL
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
7876  ADAMS  CLERK 7788 1987-5-23 1100.0 20.0  NULL
7902  FORD  ANALYST 7566 1981-12-3 3000.0 20.0  NULL
7934  MILLER  CLERK 7782 1982-1-23 1300.0 10.0  NULL
Time taken: 0.22 seconds, Fetched: 11 row(s)

(3)查询除了20 部门和30 部门以外的员工信息

复制代码
hive (default)> select * from emp where not deptno=20 or not deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.193 seconds, Fetched: 4 row(s)
复制代码
相关推荐
啊迷诺斯17 小时前
hadoop的常用命令
hadoop
SelectDB技术团队17 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·数据仓库·人工智能·ai·数据分析·湖仓一体
Loving_enjoy19 小时前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
weixin_3077791319 小时前
使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型
开发语言·数据仓库·hive·c#
一个天蝎座 白勺 程序猿21 小时前
大数据(4.6)Hive执行引擎选型终极指南:MapReduce/Tez/Spark性能实测×万亿级数据资源配置公式
大数据·hive·mapreduce
墨染丶eye1 天前
数据仓库项目启动与管理
大数据·数据仓库·spark
一个天蝎座 白勺 程序猿2 天前
大数据(4.5)Hive聚合函数深度解析:从基础统计到多维聚合的12个生产级技巧
大数据·hive·hadoop
浩浩kids2 天前
Hadoop•踩过的SHIT
大数据·hadoop·分布式
weixin_307779132 天前
C#实现HiveQL建表语句中特殊数据类型的包裹
开发语言·数据仓库·hive·c#
一个天蝎座 白勺 程序猿2 天前
大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析
大数据·hive·hadoop