spark sql上线前的调试工作实现

背景

每个公司应该都有大数据的平台的吧,平台的作用就是可以在上面执行各种spark sql以及定时任务,不过一般来说,由于这些spark sql的上线不经过测试,所以可能会影响到生产的数据,这种情况下大数据平台提供一个上线前的调试功能也就非常好了

spark sql上线前的调试工作

我们写spark sql主要是用来查询其他hive表的数据,经过数据清洗等操作后写入自己的hive目标表,但是我们hive的目标表也可能也在被别人使用,所以当我们修改spark sql后应用到hive目标表的时候风险就极大,一旦我们的hive目标表数据错误,极有可能影响到下游的任务,导致一连串的数据问题,此时,问题就来了,我怎么在修改spark sql但是正式写到hive目标表之前先看一下数据?

其实意识到这个问题后,解决的方式就显得很简单了。我们可以在spark sql修改后但是上线之前的调试阶段把结果数据先写入一张临时的hive表,等确认这张临时的hive表的数据是正确之后,再正式上线这个修改的spark sql语句。那如何把hive目标表替换成临时的hive表呢?其实对于spark sql来说也很简单,我们只需要识别insert into 后面的hive目标表即可,知道hive目标表后我们把它替换成临时hive表,问题既可得到解决。

相关推荐
Thomas_YXQ12 分钟前
Unity无GC读取图片与网格完整方案
大数据·人工智能·unity·微信·产品运营
杨云龙UP35 分钟前
Oracle Health Check巡检脚本使用SOP V2.0:从HTML原始报告→生成Word专业巡检报告→交付客户_2026-06-03
linux·运维·数据库·sql·oracle·报告·巡检
189228048612 小时前
NV023固态MT29F16T08GWLCEJ9-QBES:C
大数据·服务器·人工智能·科技·缓存
真上帝的左手2 小时前
19. 大数据-数仓建设解决方案
大数据·数据仓库
可乐ea3 小时前
【知识获取与分享社区项目 | 项目日记第 21 天】索引构建与联想建议:Outbox 增量更新 + Completion Suggester
java·大数据·mysql·elasticsearch·搜索引擎
CoCo的编程之路3 小时前
2026全栈演进:使用前端开发助手进行项目重构的最佳工具
大数据·前端·人工智能·ai编程·comate
牛奔4 小时前
如何让 GORM 打印 SQL 语句?三种方式全解析
数据库·sql
BlockWay4 小时前
WEEX Labs 周度观察:微软-OpenAI 合作调整与AI 多云趋势
大数据·人工智能·算法·安全·microsoft
andafaAPS4 小时前
安达发|工艺品aps自动排产排程排单软件:告别生产“一团乱麻“
大数据·数据库·人工智能·安达发aps·计划排产软件·自动排单软件
jkyy20144 小时前
数智赋能健康零售!智能穿戴+慢病数据追踪,解锁长效盈利新路径
大数据·人工智能·零售