生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景

开发时遇到一个较为复杂的周期需求,为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作,做了如下代码。

在爷们开发这段生产中的代码,可适配mysql,hive,hbase,gbase等等等等,基本涉及到数据库的情况基本可以进行。可以说是非常之NB!!!!!了

数据流程:

由于该代码片段主要关注数据处理流程,而非实际数据内容,,当然,我也不能把特殊数据给大家展示,后面有时间再造一批test数据吧,因此没有提供样例数据。不过,可以根据实际使用的数据库和表结构,提供相应的样例数据以供测试和验证。

具体的数据自己造就行了,咱这段逻辑时经过大数据量考验的

代码v1:

Scala 复制代码
import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024,lee研发适配,可以说,这段代码的通用性非常高非常NB!!!
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase,也可以是mysql
val table="数据库传出的数据"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)
val sql_table = "sql条件"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
val regex = new Regex("(?!)from\\s+[^\\s]+")
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)

代码V2:

在另一个环境测试时,上面的代码运行时出现了一个bug,如下

bash 复制代码
org.apache.spark.sql.AnalysisException: 
org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_beforexxxxx.
 Exception thrown when executing query :
 SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS 
`NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,
`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` 
LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` 
WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

问题描述:详细排查了一下,是由于解析sql语句时出现了一个bug,但是我在另一个环境这样写是可以解析的,神奇哦,

问题解决:我是如何解决的呢?一看就是解析表的时候出现问题,定位代码是正则表达式的问题。修改后的代码:

Scala 复制代码
import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024
//2024,lee研发适配,可以说,这段代码的通用性非常高非常NB!!!
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase,也可以是mysql
val table="数据_tegeXNph"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)

//获取sql语句
val sql_table = "sql条件导出_周期"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
// val regex = new Regex("(?!)from\\s+[^\\s]+"),会报错
//org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_before_xxx. Exception thrown when executing query : SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS `NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

val regex = new Regex("from\\s+(\\S+)") // 做了排查bug修改修改后的正则表达式  
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)
相关推荐
小安运维日记9 分钟前
Linux云计算 |【第四阶段】NOSQL-DAY1
linux·运维·redis·sql·云计算·nosql
麒麟而非淇淋5 小时前
AJAX 入门 day1
前端·javascript·ajax
Flerken1017 小时前
数据库语言、SQL语言、数据库系统提供的两种语言
数据库·sql·oracle
掘根7 小时前
【网络】高级IO——poll版本TCP服务器
网络·数据库·sql·网络协议·tcp/ip·mysql·网络安全
小哇6668 小时前
Spring Boot,在应用程序启动后执行某些 SQL 语句
数据库·spring boot·sql
isNotNullX9 小时前
如何用SQL Server和Oracle进行数据同步?
大数据·数据库·sql·oracle
惜.己16 小时前
MyBatis中一对多关系的两种处理方法
java·开发语言·后端·sql·mysql·mybatis·idea
终末圆16 小时前
MyBatis动态SQL中的`if`标签使用【后端 19】
java·数据结构·数据库·sql·算法·spring·mybatis
andrew_121919 小时前
腾讯 IEG 游戏前沿技术 一面复盘
java·redis·sql·面试
andrew_121919 小时前
腾讯 IEG 游戏前沿技术 二面复盘
后端·sql·面试