生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景

开发时遇到一个较为复杂的周期需求，为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作，做了如下代码。

在爷们开发这段生产中的代码，可适配mysql,hive,hbase，gbase等等等等，基本涉及到数据库的情况基本可以进行。可以说是非常之NB！！！！！了

数据流程：

由于该代码片段主要关注数据处理流程，而非实际数据内容，,当然，我也不能把特殊数据给大家展示，后面有时间再造一批test数据吧，因此没有提供样例数据。不过，可以根据实际使用的数据库和表结构，提供相应的样例数据以供测试和验证。

具体的数据自己造就行了，咱这段逻辑时经过大数据量考验的

代码v1：

Scala 复制代码

import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024,lee研发适配,可以说，这段代码的通用性非常高非常NB！！！
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase，也可以是mysql
val table="数据库传出的数据"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)
val sql_table = "sql条件"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
val regex = new Regex("(?!)from\\s+[^\\s]+")
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)

代码V2：

在另一个环境测试时，上面的代码运行时出现了一个bug，如下

bash 复制代码

org.apache.spark.sql.AnalysisException: 
org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_beforexxxxx.
 Exception thrown when executing query :
 SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS 
`NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,
`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` 
LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` 
WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

问题描述：详细排查了一下，是由于解析sql语句时出现了一个bug,但是我在另一个环境这样写是可以解析的，神奇哦，

问题解决：我是如何解决的呢？一看就是解析表的时候出现问题，定位代码是正则表达式的问题。修改后的代码：

Scala 复制代码

import org.apache.spark.storage.StorageLevel
import org.apache.spark.sql.functions.{udf,col,date_format}
import scala.util.matching.Regex

//2024
//2024,lee研发适配,可以说，这段代码的通用性非常高非常NB！！！
//time:202401GZ
// https://blog.csdn.net/qq_52128187?type=blog
//获取数据库中的数据并转为dataframe,可以使hbase，也可以是mysql
val table="数据_tegeXNph"
val dfin=inputRDD(table).asInstanceOf[org.apache.spark.sql.DataFrame]
dfin.createOrReplaceTempView(s"`$table`")
dfin.show(3)

//获取sql语句
val sql_table = "sql条件导出_周期"
val sql = inputRDD(sql_table).asInstanceOf[String]
println("打印前序导出的sql:  " + sql)

//正则结合sql与df,获取最终数据
// val regex = new Regex("(?!)from\\s+[^\\s]+")，会报错
//org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table all_before_xxx. Exception thrown when executing query : SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable' AS `NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,`A0`.`LAST_ACCESS_TIME`,`A0`.`OWNER`,`A0`.`OWNER_TYPE`,`A0`.`RETENTION`,`A0`.`TBL_NAME`,`A0`.`TBL_TYPE`,`A0`.`TBL_ID` FROM `TBLS` `A0` LEFT OUTER JOIN `DBS` `B0` ON `A0`.`DB_ID` = `B0`.`DB_ID` WHERE `A0`.`TBL_NAME` = ? AND `B0`.`NAME` = ?;

val regex = new Regex("from\\s+(\\S+)") // 做了排查bug修改修改后的正则表达式  
val actualSql = regex.replaceFirstIn(sql,s"from `${table}`")
println("打印最终sql:"+actualSql)

//解析sql
val resultDf = spark.sql(actualSql)
resultDf.show(10,false)