HIVE中的常用和不常用的函数总结及hive中的常见问题(自用)

笛卡尔积

假设A和B是两个集合,存在一个集合,它的元素是用A中元素为第一元素,B中元素为第二元素构成的有序二元组,这个集合称为集合A和集合B的笛卡尔积,记为A X B。

eg:假设集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。

可以用内连接的方式进行笛卡尔积的实现

explode函数

explode函数就是把整个数组的元素进行分解,分解成一个新表(虚拟的),就是把一行好多好多字放到好几行里面去,成一个新的表

特别注意,explode函数只能查询一个字段,多字段查询就会报错。

lateral view 完美的解决了此问题,加上lateral view后就可以多个字段一起查询了

having 和where 的区别

HAVING 关键字和 WHERE 关键字都可以用来过滤数据,且 HAVING 支持 WHERE 关键字中所有的操作符和语法。

但是 WHERE 和 HAVING 关键字也存在以下几点差异:

1.一般情况下,WHERE 用于过滤数据行,而 HAVING 用于过滤分组。

2.WHERE 查询条件中不可以使用聚合函数,而 HAVING 查询条件中可以使用聚合函数。

3.WHERE 在数据分组前进行过滤,而 HAVING 在数据分组后进行过滤 。

4.WHERE 针对数据库文件进行过滤,而 HAVING 针对查询结果进行过滤。也就是说,WHERE 根据数据表中的字段直接进行过滤,而 HAVING 是根据前面已经查询出的字段进行过滤。

5.WHERE 查询条件中不可以使用字段别名,而 HAVING 查询条件中可以使用字段别名。

相关推荐
Volunteer Technology3 小时前
Hadoop之HDFS集群搭建与操作(二)
大数据·hadoop·hdfs
Volunteer Technology5 小时前
Hadoop之HDFS shell操作篇
大数据·hadoop·hdfs
青春万岁!!5 小时前
hive 动态分区参数设置错误导致数据不稳定
大数据·数据仓库·hive·hadoop
大大大大晴天️19 小时前
浅聊Hadoop集群的主流安全方案(LDAP+Kerberos+Ranger)
大数据·hadoop·安全
roman_日积跬步-终至千里1 天前
为什么 Hive 无法通过同步 JDBC 导出百万级数据?
数据仓库·hive·hadoop
WL_Aurora1 天前
HDFS基础编程常用命令
大数据·hadoop·hdfs
大大大大晴天1 天前
浅聊Hadoop集群的主流安全方案(LDAP+Kerberos+Ranger)
大数据·hadoop
roman_日积跬步-终至千里1 天前
Hive JDBC vs MySQL JDBC:**“服务端推完就跑,客户端慢慢吃”**详解
数据仓库·hive·hadoop
计算机毕业编程指导师2 天前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师2 天前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django