spark3.x之后时间格式数据偶发报错org.apache.spark.SparkUpgradeException

3.x之后如果你去处理2.x生成的时间字符串数据,很容易遇到一个问题

bash 复制代码
Error operating ExecuteStatement: 
org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark 3.0: Fail to parse 
'20200725__cb90fcc3_8006_46b8_8f78_781aaff2e7f3' in the new parser. 
You can set spark.sql.legacy.timeParserPolicy to LEGACY to restore the behavior before Spark 3.0, or set to CORRECTED and treat it as an invalid datetime string.

这个问题的原因是2.x时,对时间数据的格式话用的是simpledateformat类,但是这个类对数据的容错很高,导致偶尔会生成数据后缀,3.x之后不用它了,但是在处理时遇到这种数据3.x的spark就会报上面的错误,而提示中说的spark.sql.legacy.timeParserPolicy=LEGACY是一种尝试修复的措施,并不能保证百分百没问题,最优解是处理数据的时候遇到时间字符串用substr截取一下

相关推荐
秦怀1 小时前
从单机缓存到分布式缓存那些事
分布式·后端·缓存
埃文科技1 小时前
我们为什么需要数据资产入表?
大数据
天冬忘忧1 小时前
Flink 安装与入门:开启流式计算新时代
大数据·flink
天冬忘忧1 小时前
Flink--API 之 Source 使用解析
大数据·flink·kafka
EleganceJiaBao1 小时前
【Git】Git 完全指南:从入门到精通
windows·分布式·git·python·github·mac·版本管理
Qspace丨轻空间3 小时前
楼顶气膜馆:引领科技感与声学完美结合的未来会议空间—轻空间
大数据·人工智能·生活·娱乐
数据库安全3 小时前
美创科技获选“金智奖”年度创新解决方案,为工业企业数据安全治理提供思路
大数据·网络·人工智能
小小小妮子~3 小时前
《掌握Git分布式版本控制工具:从基本概念到实战应用》
分布式·git
与君共勉121383 小时前
Jenkins-基于 SSH 实现 Jenkins 分布式
java·运维·服务器·分布式·ssh·jenkins