【Hadoop实训】Hive 数据操作①

目录

一、准备文件

1、创建表

[2、 数据映射](#2、 数据映射)

二、HIVE的数据操作

1、基本查询

a、全表查询

b、选择特定字段查询

c、查询员工表总人数

d、查询员工表总工资额

e、查询5条员工表的信息

2、Where条件查询

a、查询工资等于5000的所有员工

b、查询工资在500到1000的员工信息

c、查询comm为空的所有员工信息

d、查询工资是1500和5000的员工信息

[3、Liket 和 Rlike](#3、Liket 和 Rlike)

a、查找工资以2开头的员工信息

b、查找工资的第二个数值为2的员工信息

c、查找工资中含有2的员工信息


一、准备文件

1、创建表

准备两个文件emp.txt和dept.txt

创建表(在hive上操作) ,先进入itcast 命令:

复制代码
use itcast;

create table emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)row format delimited fields  terminated by '\t';

create table dept(deptno int,dname string,loc int) row format delimited fields  terminated by '\t';

2、 数据映射

创建表完成后,将数据文件移动到对应的HDFS路径下,完成数据映射。

二、HIVE的数据操作

1、基本查询

a、全表查询

复制代码
select * from emp;

b、选择特定字段查询

复制代码
select deptno,dname from dept;

c、查询员工表总人数

复制代码
select count(*) cnt from emp;

d、查询员工表总工资额

复制代码
select sum(sal) sum_sal from emp;

e、查询5条员工表的信息

复制代码
select * from emp limit 5;

2、Where条件查询

a、查询工资等于5000的所有员工

复制代码
select * from emp where sal=5000;

b、查询工资在500到1000的员工信息

复制代码
select * from emp where sal between 500 and 1000;

c、查询comm为空的所有员工信息

复制代码
select * from emp where comm is null;

d、查询工资是1500和5000的员工信息

复制代码
select * from emp where sal IN (1500,5000);

3、Liket 和 Rlike

a、查找工资以2开头的员工信息

复制代码
select * fcom emp where sal LIKE '2%';

b、查找工资的第二个数值为2的员工信息

复制代码
hive> select * from emp wheresal LIKE '_2%';

c、查找工资中含有2的员工信息

复制代码
select * from cmp where sal RLIKE ' [2] ';

此模块分为两篇文章哦,继续学习请参考以下链接:【Hadoop实训】Hive 数据操作②-CSDN博客

相关推荐
老蒋新思维2 分钟前
创客匠人峰会深度解析:知识变现的 “IP 资产化” 革命 —— 从 “运营流量” 到 “沉淀资产” 的长期增长逻辑
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
老蒋新思维19 分钟前
创客匠人峰会洞察:IP 信任为基,AI 效率为翼,知识变现的可持续增长模型
大数据·网络·人工智能·网络协议·tcp/ip·创始人ip·创客匠人
玖日大大23 分钟前
ModelEngine 可视化编排实战:从智能会议助手到企业级 AI 应用构建全指南
大数据·人工智能·算法
TDengine (老段)28 分钟前
TDengine 数据缓存架构及使用详解
大数据·物联网·缓存·架构·时序数据库·tdengine·涛思数据
hans汉斯44 分钟前
【软件工程与应用】基于大数据的应急救援云平台构建应用研究
大数据·数据库·人工智能·物联网·系统架构·云计算·汉斯出版社
秋刀鱼 ..1 小时前
2026生物神经网络与智能优化国际研讨会(BNNIO 2026)
大数据·python·计算机网络·数学建模·制造
AI优秘企业大脑1 小时前
增长智能体助力企业智慧转型
大数据·人工智能
正在走向自律1 小时前
时序数据库选型指南,从大数据视角看新一代列式存储引擎的核心优势
大数据·时序数据库·iotdb·国产数据库
艾莉丝努力练剑1 小时前
【Linux基础开发工具 (七)】Git 版本管理全流程与 GDB / CGDB 调试技巧
大数据·linux·运维·服务器·git·安全·elasticsearch
yuguo.im1 小时前
Elasticsearch 的倒排索引原理
大数据·elasticsearch·搜索引擎