Hive:bigint和string进行join出现匹配错误问题

转载链接

在hive中,两个表进行join,on条件两表的字段含义一致(都是整数),但数据类型不一致:string和bigint。join后发现如果数值过大则匹配的记录会出现问题:一条记录会匹配出多条记录(explain可以发现都转换为double)

如:190000000002778025,就会错误的匹配上*8023 ,*8025

a)原因:Java中精度只有15至16位,当数据超过精度就会不准------也就会出现超过精度的记录join上许多不一致的记录。

bigint和string比较时会隐式地都转换成double,java中double的精度只有15-16位(double可以精确的表示小于2^52=4503599627370496的数字)。当数字超过精度的时候就会比较不准确,出现上面描述的现象。

b)解决方法:建议将string转换为bigint~ cast(c as bigint) 后再进行比较。

float 和 double 的区别:double更占内容,在满足需求的基础上,使用float更合理。

相关推荐
viperrrrrrrrrr73 小时前
大数据学习(115)-hive与impala
大数据·hive·学习·impala
Bob999819 小时前
Amlogic S905L3系列盒子 ROM DIY相关
java·javascript·数据仓库·vscode·eclipse·tomcat·vim
weixin_3077791321 小时前
AWS Glue ETL设计与调度最佳实践
开发语言·数据仓库·云计算·etl·aws
IT成长日记1 天前
【Hive入门】Hive分区与分区表完全指南:从原理到企业级实践
数据仓库·hive·hadoop·hive分区·hive分区表
晴天彩虹雨1 天前
Flink 消费 Kafka 数据流的最佳实践
数据仓库·flink·kafka·linq
Leo.yuan1 天前
数据仓库建设全解析!
大数据·数据库·数据仓库·数据分析·spark
2501_906314322 天前
优化无头浏览器流量:使用Puppeteer进行高效数据抓取的成本降低策略
开发语言·数据结构·数据仓库
youka1502 天前
大数据学习栈记——Hive4.0.1安装
大数据·hive·学习
IT成长日记3 天前
【Hive入门】Hive基础操作与SQL语法:DDL操作全面指南
hive·hadoop·sql·ddl操作
IT成长日记3 天前
【Hive入门】Hive分桶表深度解析:从哈希分桶到Join优化的完整指南
hive·hadoop·哈希算法·哈希分桶·join优化