spark3.x之后时间格式数据偶发报错org.apache.spark.SparkUpgradeException

3.x之后如果你去处理2.x生成的时间字符串数据,很容易遇到一个问题

bash 复制代码
Error operating ExecuteStatement: 
org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark 3.0: Fail to parse 
'20200725__cb90fcc3_8006_46b8_8f78_781aaff2e7f3' in the new parser. 
You can set spark.sql.legacy.timeParserPolicy to LEGACY to restore the behavior before Spark 3.0, or set to CORRECTED and treat it as an invalid datetime string.

这个问题的原因是2.x时,对时间数据的格式话用的是simpledateformat类,但是这个类对数据的容错很高,导致偶尔会生成数据后缀,3.x之后不用它了,但是在处理时遇到这种数据3.x的spark就会报上面的错误,而提示中说的spark.sql.legacy.timeParserPolicy=LEGACY是一种尝试修复的措施,并不能保证百分百没问题,最优解是处理数据的时候遇到时间字符串用substr截取一下

相关推荐
数据智能老司机7 小时前
CockroachDB权威指南——CockroachDB SQL
数据库·分布式·架构
数据智能老司机7 小时前
CockroachDB权威指南——开始使用
数据库·分布式·架构
你觉得2058 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
数据智能老司机8 小时前
CockroachDB权威指南——CockroachDB 架构
数据库·分布式·架构
啊喜拔牙8 小时前
1. hadoop 集群的常用命令
java·大数据·开发语言·python·scala
IT成长日记8 小时前
【Kafka基础】Kafka工作原理解析
分布式·kafka
别惊鹊8 小时前
MapReduce工作原理
大数据·mapreduce
8K超高清8 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
2401_8712905810 小时前
MapReduce 的工作原理
大数据·mapreduce
州周10 小时前
kafka副本同步时HW和LEO
分布式·kafka