Hive:bigint和string进行join出现匹配错误问题

转载链接

在hive中,两个表进行join,on条件两表的字段含义一致(都是整数),但数据类型不一致:string和bigint。join后发现如果数值过大则匹配的记录会出现问题:一条记录会匹配出多条记录(explain可以发现都转换为double)

如:190000000002778025,就会错误的匹配上*8023 ,*8025

a)原因:Java中精度只有15至16位,当数据超过精度就会不准------也就会出现超过精度的记录join上许多不一致的记录。

bigint和string比较时会隐式地都转换成double,java中double的精度只有15-16位(double可以精确的表示小于2^52=4503599627370496的数字)。当数字超过精度的时候就会比较不准确,出现上面描述的现象。

b)解决方法:建议将string转换为bigint~ cast(c as bigint) 后再进行比较。

float 和 double 的区别:double更占内容,在满足需求的基础上,使用float更合理。

相关推荐
走遍西兰花.jpg1 天前
sqoop的导入导出
hive·hadoop·sqoop
LF3_2 天前
Centos7,搭建Hive3.1.3数据库
大数据·数据库·hive
一只大侠的侠2 天前
数据工程新范式“从ETL到ELT的平滑迁移实战指南”
数据仓库·etl
是阿威啊2 天前
【用户行为归因分析项目】- 【企业级项目开发第二站】项目通用代码开发
大数据·服务器·数据仓库·hive·hadoop
大千AI助手2 天前
HiveOperator 中 hql 模板路径解析失败的原因分析
hive·python·任务调度·airflow·模版·大千ai助手·hiveoperator
Hello.Reader2 天前
Hive Dialect 的查询能力支持哪些 HiveQL 子集,怎么写、怎么跑
数据仓库·hive·hadoop
是阿威啊3 天前
【用户行为归因分析项目】- 【企业级项目开发第三站】模拟DIM层设备、应用数据加载到Hive
数据仓库·hive·hadoop
麦聪聊数据3 天前
解构“逻辑数据仓库 (LDW)”与数据虚拟化
数据库·数据仓库·sql
小鸡脚来咯3 天前
Hive SQL与SQL不同处
hive·hadoop·sql
zgl_200537794 天前
ZGLanguage 解析SQL数据血缘 之 提取select语句中的源表名
大数据·数据库·c++·数据仓库·sql·数据库开发·etl