Apache Hive(三)

一、Apache Hive

1、ETL数据清洗

数据问题

问题1:当前数据中,有一些数据的字段为空,不是合法数据

解决:where 过滤

问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理

解决:Substr函数

问题3:从GPS的经纬度中提取经度和纬度

解决:split函数

问题4:将ETL以后的结果保存到一张新的Hive表中

解决:create table ... as select ....

2、SQL编写与指标计算

需求:

1、统计今日总消息量

sql 复制代码
-- 按天分组,求总和
select dayinfo,count(*) as tolal_cnt from t_msg group by dayinfo

2、统计今日每小时消息量、发送和接收用户数

sql 复制代码
-- 按天,小时分组,求发送/接收用户数--一人发送多条消息
select dayinfo,hourinfo,count(*) as tolal_cnt,
 count(distinct sender_account) as sender_cnt,
 count(distinct recdiver_account) as recdiver_cnt
  from t_msg group by dayinfo,hourinfo

3、统计今日各地区发送消息数据量

4、统计今日发送消息和接收消息的用户数

sql 复制代码
-- 按天分组,求发送/接收用户数--一人发送多条消息
select dayinfo,count(*) as tolal_cnt,
 count(distinct sender_account) as sender_cnt,
 count(distinct recdiver_account) as recdiver_cnt
  from t_msg group by dayinfo

5、统计今日发送消息最多的Top10用户

sql 复制代码
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,send_name,count(*) as msg_cnt
  from t_msg group by dayinfo,send_name order by msg_cnt desc limit 10;

6、统计今日接收消息最多的Top10用户

sql 复制代码
-- 按天和用户分组,求发送用户数--一人发送多条消息
select dayinfo,recdiver_name,count(*) as msg_cnt
  from t_msg group by dayinfo,recdiver_name order by msg_cnt desc limit 10;

7、统计发送人的手机型号分布情况

8、统计发送人的设备操作系统分布情况

1、实际开发中,拿到业务需求指标,如何下手?

2、SQL层面如何编写查询语句?

例:

**需求:**统计每个城市男女人数与男女平均年龄(表:t_user[id,name,age,sex,city])

分组字段:每个城市、男女

聚合字段:人数、平均年龄

count(id)就是统计每个分组中的条数--->人数

avg(age)就是统计每个分组中年龄的平均值--->平均年龄

3、FineBI实现可视化报表

Apache Hive(二)

请记住,你当下的结果,由过去决定;你现在的努力,在未来见效;
不断学习才能不断提高!磨炼,不断磨炼自己的技能!学习伴随我们终生!
生如蝼蚁,当立鸿鹄之志,命比纸薄,应有不屈之心。
乾坤未定,你我皆是黑马,若乾坤已定,谁敢说我不能逆转乾坤?
努力吧,机会永远是留给那些有准备的人,否则,机会来了,没有实力,只能眼睁睁地看着机会溜走。

相关推荐
计艺回忆路1 小时前
Hive自定义函数(UDF)开发和应用流程
hive·自定义函数·udf
万能小锦鲤15 小时前
《大数据技术原理与应用》实验报告三 熟悉HBase常用操作
java·hadoop·eclipse·hbase·shell·vmware·实验报告
天翼云开发者社区21 小时前
数据治理的长效机制
大数据·数据仓库
王小王-1231 天前
基于Hadoop与LightFM的美妆推荐系统设计与实现
大数据·hive·hadoop·大数据美妆推荐系统·美妆商品用户行为·美妆电商
一切顺势而行1 天前
hadoop 集群问题处理
大数据·hadoop·分布式
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告七 熟悉 Spark 初级编程实践
hive·hadoop·ubuntu·flink·spark·vmware·实验报告
项目題供诗2 天前
Hadoop(二)
大数据·hadoop·分布式
Leo.yuan2 天前
ETL还是ELT,大数据处理怎么选更靠谱?
大数据·数据库·数据仓库·信息可视化·etl
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告五 熟悉 Hive 的基本操作
hive·hadoop·ubuntu·eclipse·vmware·实验报告·hiveql
張萠飛2 天前
flink sql如何对hive string类型的时间戳进行排序
hive·sql·flink