Azure databricks spark overwrite 全量更新的时候容易碰到的问题

原因:Azure databricks spark overwrite 全量ADS层表更新的时候容易碰到的问题正在写入结果有服务请求这个表的数据那如何避免呢?

1、 databricks spark overwrite 到的的时候会先TRUNCATE TABLE 然后再写入,就会碰到查询是空的情况,解决办法是用存储过程解决先写入_bak表,再通过存储过程改表名的方式完成替换。以下是核心代码
注意是用 pymysql 执行

CALL DDL的在mysql的存储需要自己写哈

bash 复制代码
from pymysql import *

# 删除的操作
def ddl_mysql(ddlsql,database):
    
    if ddlsql is None or len(ddlsql)==0:
        return '参数deleteQuery异常!'
    
    jdbcUsername = ****
    jdbcPassword = ****
    
    #创建数据库的连接
    conn=connect(host='123456---_mysql.cn',user=jdbcUsername,password=jdbcPassword,database=database,charset='utf8')
    #创建一个游标对象 可以利用这个对象进行数据库的操作
    try:
        cur=conn.cursor()

        cur.execute(ddlsql)
        # 提交事物
        conn.commit()
        #res=cur.fetchall()

        print(ddlsql + ' is success!')
        #print('sucess')
    except Exception as ex:
        print(ex)
    finally:
        cur.close()
        conn.close()

下面是调用

bash 复制代码
# 开始执行用到的
Mydf = df
Mytable = "tab_produce"  # 生产的表名
Myschema = "produce_db"
Mytablebak = Mytable + '_bak'  # 先写入

print(' --执行存入mysql时间:' + str(datetime.datetime.now()) + ' 表为:' + Myschema + '.' + Mytablebak)
save_to_mysql_overwrite(Mydf,Myschema,Mytablebak)
print(' --在mysql上存储完成时间:' + str(datetime.datetime.now()) + ' 表为:' + Myschema + '.' + Mytablebak)
# 去call你mysql的存储过程
ddl_sql = "call xxxxx('{0}','{1}','{2}')".format(Myschema,Mytable,Mytablebak)
print(' --在mysql上执行过程开始时间:' + str(datetime.datetime.now()))
ddl_mysql(ddl_sql,Myschema)
print(' --在mysql上执行过程完成时间:' + str(datetime.datetime.now()) + ' 存入表为:' + Myschema + '.' + Mytable)
print(str(datetime.datetime.now()) + "数据写入xx表:" + Myschema + "." + Mytable +" 完成! ")
相关推荐
源码之家1 天前
计算机毕业设计:基于Python的美食推荐分析系统 Django框架 爬虫 协同过滤推荐算法 可视化 推荐系统 数据分析 大数据(建议收藏)✅
爬虫·python·机器学习·django·flask·课程设计·美食
talen_hx2962 天前
《零基础入门Spark》学习笔记 Day 07
笔记·学习·spark
码界筑梦坊2 天前
354-基于Python的全国水稻数据可视化分析系统
开发语言·python·信息可视化·数据分析·flask·bootstrap·毕业设计
未来转换2 天前
Python-web开发之Flask框架入门
前端·python·flask
源码之家2 天前
计算机毕业设计:基于Python的美食推荐可视化系统 Django框架 可视化 协同过滤推荐算法 推荐系统 食物 食品 大数据 数据分析(建议收藏)✅
python·django·flask·课程设计·推荐算法·美食
源码之家2 天前
计算机毕业设计:Python智慧交通大数据监控系统 Flask框架 可视化 百度地图 汽车 车况 数据分析 大模型 机器学习(建议收藏)✅
大数据·python·算法·机器学习·信息可视化·flask·课程设计
源码之家2 天前
计算机毕业设计:基于Python的美食菜谱数据分析可视化系统 Django框架 爬虫 机器学习 数据分析 可视化 食物 食品 菜谱(建议收藏)✅
爬虫·python·数据分析·django·flask·课程设计·美食
源码之家2 天前
计算机毕业设计:基于Python的汽车数据可视化分析系统 Django框架 Scrapy爬虫 可视化 车辆 懂车帝大数据 数据分析 机器学习(建议收藏)✅
python·信息可视化·django·flask·汽车·课程设计·美食
绿算技术2 天前
OpenClaw × GP Spark:本地智能与极速存储的终极融合
大数据·分布式·spark