spark3.x之后时间格式数据偶发报错org.apache.spark.SparkUpgradeException

3.x之后如果你去处理2.x生成的时间字符串数据,很容易遇到一个问题

bash 复制代码
Error operating ExecuteStatement: 
org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark 3.0: Fail to parse 
'20200725__cb90fcc3_8006_46b8_8f78_781aaff2e7f3' in the new parser. 
You can set spark.sql.legacy.timeParserPolicy to LEGACY to restore the behavior before Spark 3.0, or set to CORRECTED and treat it as an invalid datetime string.

这个问题的原因是2.x时,对时间数据的格式话用的是simpledateformat类,但是这个类对数据的容错很高,导致偶尔会生成数据后缀,3.x之后不用它了,但是在处理时遇到这种数据3.x的spark就会报上面的错误,而提示中说的spark.sql.legacy.timeParserPolicy=LEGACY是一种尝试修复的措施,并不能保证百分百没问题,最优解是处理数据的时候遇到时间字符串用substr截取一下

相关推荐
czlczl2002092531 分钟前
XA分布式事务
分布式
Agentic AI人工智能与大数据2 小时前
数据产品运营指南:如何提升用户活跃度?这4个策略让数据产品不再“沉睡”
大数据·ai·产品运营
飞Link3 小时前
开发者必读:2026 欧盟“AI Omnibus”法案达成,技术合规性红线在哪里?
大数据
老纪的技术唠嗑局3 小时前
深度解析 LLM Wiki / Obsidian-Wiki / GBrain:Agent 时代知识的“自组织”与“自进化”
大数据·数据库·人工智能·算法
笨手笨脚の4 小时前
分布式系统的本质是什么
分布式
好赞科技5 小时前
2026年高口碑餐厅预约小程序排行榜:智能就餐新体验一键解锁
大数据·微信小程序
czlczl200209255 小时前
Zookeeper
分布式·zookeeper·云原生
数据智能老司机6 小时前
深入解锁 dbt——Documentation:项目文档与数据文档
大数据
计算机毕业编程指导师6 小时前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师6 小时前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django