Apache Hive(三)

一、Apache Hive

1、ETL数据清洗

数据问题

问题1:当前数据中,有一些数据的字段为空,不是合法数据

解决:where 过滤

问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理

解决:Substr函数

问题3:从GPS的经纬度中提取经度和纬度

解决:split函数

问题4:将ETL以后的结果保存到一张新的Hive表中

解决:create table ... as select ....

2、SQL编写与指标计算

需求:

1、统计今日总消息量

sql 复制代码
-- 按天分组,求总和
select dayinfo,count(*) as tolal_cnt from t_msg group by dayinfo

2、统计今日每小时消息量、发送和接收用户数

sql 复制代码
-- 按天,小时分组,求发送/接收用户数--一人发送多条消息
select dayinfo,hourinfo,count(*) as tolal_cnt,
 count(distinct sender_account) as sender_cnt,
 count(distinct recdiver_account) as recdiver_cnt
  from t_msg group by dayinfo,hourinfo

3、统计今日各地区发送消息数据量

4、统计今日发送消息和接收消息的用户数

sql 复制代码
-- 按天分组,求发送/接收用户数--一人发送多条消息
select dayinfo,count(*) as tolal_cnt,
 count(distinct sender_account) as sender_cnt,
 count(distinct recdiver_account) as recdiver_cnt
  from t_msg group by dayinfo

5、统计今日发送消息最多的Top10用户

sql 复制代码
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,send_name,count(*) as msg_cnt
  from t_msg group by dayinfo,send_name order by msg_cnt desc limit 10;

6、统计今日接收消息最多的Top10用户

sql 复制代码
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,recdiver_name,count(*) as msg_cnt
  from t_msg group by dayinfo,recdiver_name order by msg_cnt desc limit 10;

7、统计发送人的手机型号分布情况

8、统计发送人的设备操作系统分布情况

1、实际开发中,拿到业务需求指标,如何下手?

2、SQL层面如何编写查询语句?

例:

**需求:**统计每个城市男女人数与男女平均年龄(表:t_user[id,name,age,sex,city])

分组字段:每个城市、男女

聚合字段:人数、平均年龄

count(id)就是统计每个分组中的条数--->人数

avg(age)就是统计每个分组中年龄的平均值--->平均年龄

3、FineBI实现可视化报表

Apache Hive(二)

请记住,你当下的结果,由过去决定;你现在的努力,在未来见效;
不断学习才能不断提高!磨炼,不断磨炼自己的技能!学习伴随我们终生!
生如蝼蚁,当立鸿鹄之志,命比纸薄,应有不屈之心。
乾坤未定,你我皆是黑马,若乾坤已定,谁敢说我不能逆转乾坤?
努力吧,机会永远是留给那些有准备的人,否则,机会来了,没有实力,只能眼睁睁地看着机会溜走。

相关推荐
weixin_462446236 分钟前
Hive Metastore 使用 MySQL 8(CJ 驱动)完整配置实战(含完整 Shell 脚本)
hive·hadoop·mysql
zgl_2005377939 分钟前
源代码:ZGLanguage 解析SQL数据血缘 之 显示 MERGE SQL 结构图
数据库·数据仓库·hive·数据治理·etl·sql解析·数据血缘
Gain_chance1 小时前
24-学习笔记尚硅谷数仓搭建-DIM层的维度表建表思路及商品表维度表的具体建表解析
数据仓库·hive·笔记·学习·datagrip
talle20212 小时前
Hive | 分区与分桶
大数据·数据仓库·hive
zhangkaixuan45611 小时前
Paimon 读取数据流程深度解析
大数据·hadoop·flink·apache·paimon
Gain_chance17 小时前
23-学习笔记尚硅谷数仓搭建-ODS层业务全量表、增量表结构设计及数据装载脚本
数据仓库·hive·笔记·学习
JZC_xiaozhong19 小时前
什么是ETL?一文了解提取、转换与加载
数据库·数据仓库·数据分析·etl·数据一致性·数据孤岛解决方案·数据集成与应用集成
yumgpkpm1 天前
在AI语言大模型时代 Cloudera CDP(华为CMP 鲲鹏版)对自有知识的保护
人工智能·hadoop·华为·zookeeper·spark·kafka
zhangxl-jc1 天前
Hive基本操作日记
数据仓库·hive·hadoop
计算机毕业编程指导师1 天前
【Python大数据选题】基于Hadoop+Spark奥运会金牌榜可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·奥运会金牌