Flink SQL因类型错误导致MAX和MIN计算错误

背景

最近在做数据分析,用Flink SQL来做分析工具,因数据源的数据存在不太规范的数据格式,因此我需要通过SQL函数把我需要的数据值从VARCHAR类型的字段中把数据提取出来,然后再做MAX、MIN、SUM这些统计。怎料SUM算出来的结果准确无误,而MAX和MIN算出来的结果却始终不正确,最后发现原来是我用SQL函数提取VARCHAR类型的字段的数据,也是VARCHAR类型,所以导致MAX、MIN结果不正确,后面转成DOUBLE类型之后结果正确。

示例

源数据

|---------|-----------|----------|
| user_id | user_name | integral |
| 1 | 张一 | 100,150 |
| 2 | 张二 | 100,150 |
| 3 | 张三 | 50,30 |
| 4 | 张四 | 20,50 |

假设源数据有这一张表,字段分别表示用户ID、用户名和积分,积分字段是使用逗号分隔的两个内容值,第一个是普通积分,第二个是VIP积分,需要分析所有用户中最小的普通积分和最大的VIP积分。

分析SQL

错误的SQL

sql 复制代码
......


--SPLIT_INDEX(`integral`,',',0) 返回的是一个VARCHAR,所以这里计算的结果为50
SELECT MAX(SPLIT_INDEX(`integral`,',',0)) AS common_integral_max

FROM user_table ;


--SPLIT_INDEX(`integral`,',',0) 返回的是一个VARCHAR,所以这里计算的结果为150
SELECT MIN(SPLIT_INDEX(`integral`,',',0)) AS vip_integral_min 

FROM user_table;


......

正确的SQL

sql 复制代码
......


--SPLIT_INDEX(`integral`,',',0) 返回的是一个VARCHAR,将其转为DOUBLE后,计算结果为100
SELECT MAX(CAST(SPLIT_INDEX(`integral`,',',0) AS DOUBLE)) AS common_integral_max

FROM user_table ;


--SPLIT_INDEX(`integral`,',',0) 返回的是一个VARCHAR,将其转为DOUBLE后,计算结果为30
SELECT MIN(CAST(SPLIT_INDEX(`integral`,',',0) AS DOUBLE)) AS vip_integral_min 

FROM user_table;


......

总结

结合我上面踩的坑,我觉得以后设计表结构的时候,应该让字段的类型与实际存储的数据类型相匹配,同时代码中定义数据结构体时,类型也需要与实际的数据类型一致,这样可以减少在做数据处理的时候的数据转换。

相关推荐
码农小卡拉3 分钟前
深入解析Spring Boot文件加载顺序与加载方式
java·数据库·spring boot
怣508 分钟前
MySQL多表连接:全外连接、交叉连接与结果集合并详解
数据库·sql
wjhx29 分钟前
QT中对蓝牙权限的申请,整理一下
java·数据库·qt
冰暮流星40 分钟前
javascript之二重循环练习
开发语言·javascript·数据库
万岳科技系统开发1 小时前
食堂采购系统源码库存扣减算法与并发控制实现详解
java·前端·数据库·算法
冉冰学姐1 小时前
SSM智慧社区管理系统jby69(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·管理系统·智慧社区·ssm 框架
杨超越luckly1 小时前
HTML应用指南:利用GET请求获取中国500强企业名单,揭秘企业增长、分化与转型的新常态
前端·数据库·html·可视化·中国500强
Elastic 中国社区官方博客2 小时前
Elasticsearch:Workflows 介绍 - 9.3
大数据·数据库·人工智能·elasticsearch·ai·全文检索
仍然.2 小时前
MYSQL--- 聚合查询,分组查询和联合查询
数据库
一 乐2 小时前
校园二手交易|基于springboot + vue校园二手交易系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端