Hive:bigint和string进行join出现匹配错误问题

转载链接

在hive中,两个表进行join,on条件两表的字段含义一致(都是整数),但数据类型不一致:string和bigint。join后发现如果数值过大则匹配的记录会出现问题:一条记录会匹配出多条记录(explain可以发现都转换为double)

如:190000000002778025,就会错误的匹配上*8023 ,*8025

a)原因:Java中精度只有15至16位,当数据超过精度就会不准------也就会出现超过精度的记录join上许多不一致的记录。

bigint和string比较时会隐式地都转换成double,java中double的精度只有15-16位(double可以精确的表示小于2^52=4503599627370496的数字)。当数字超过精度的时候就会比较不准确,出现上面描述的现象。

b)解决方法:建议将string转换为bigint~ cast(c as bigint) 后再进行比较。

float 和 double 的区别:double更占内容,在满足需求的基础上,使用float更合理。

相关推荐
howard20054 小时前
VMWare上搭建Hive集群
hive·hadoop
aristo_boyunv4 小时前
拦截器和过滤器(理论+实操)
java·数据仓库·hadoop·servlet
元媛媛1 天前
数据仓库概要
数据仓库
cg.family1 天前
Doris 数据仓库例子
数据仓库·doris
TDengine (老段)1 天前
从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
数据库·数据仓库·人工智能·物联网·时序数据库·etl·tdengine
镜舟科技2 天前
告别 Hadoop,拥抱 StarRocks!政采云数据平台升级之路
大数据·starrocks·数据仓库·hadoop·存算分离
程序猿 董班长2 天前
springboot配置多数据源(mysql、hive)
hive·spring boot·mysql
XueminXu2 天前
Hive使用Tez引擎出现OOM的解决方法
hive·oom·tez·datagrip·container·outofmemory
YF云飞2 天前
数据仓库进化:Agent驱动数智化新范式
数据仓库·人工智能·ai
KANGBboy5 天前
hive udf 执行一次调用多次问题
数据仓库·hive·hadoop