Spark写PGSQL分区表

这里写目录标题

需求

spark程序计算后的数据需要往PGSQL中的分区表进行写入。

碰到的问题

格式问题

使用了字符串格式,导致插入报错。

scala 复制代码
val frame = df.withColumn("insert_time",current_timestamp()))
yaml 复制代码
Batch entry 0 INSERT INTO t ("a","insert_time") VALUES 
(1,'2023-08-01 10:00:00') was aborted: ERROR: column 
"insert_time" is of type timestamp without time zone but 
expression is of type character varying

分区问题(重点)

一直都是spark计算完后写单表或者hive的表,都需要去手动去维护分区。但是写PGSQL空表(只有表字段,还没有数据,没有创建分区),需要手动先创建分区,否则会报错。

报错信息

yaml 复制代码
Partition key of the failing row contains (insert_time) = 
(2023-08-04 21:14:09.641).  Call getNextException to see other 
errors in the batch.

插入失败的行的分区键包含的时间戳值 2023-08-04 21:14:09.641 在分区表中找不到对应的分区范围。

解决

最终的解决方案是在插入数据之前,通过代码去添加分区,添加好分区后再写入数据即可。

scala 复制代码
object WritePgSQL {

  def main(args: Array[String]): Unit = {

        val spark = SparkSession.builder()
          .appName("SparkPostgreSQLPartitionedTable")
          .config("spark.master", "local")
          .getOrCreate()

        // 设置PostgreSQL连接信息
        val postgresUrl = "jdbc:postgresql://192.168.160.123:5432/test"
        val connectionProperties = new java.util.Properties()
        connectionProperties.setProperty("user", "test")
        connectionProperties.setProperty("password", "123456")

        // 创建测试数据
        val data = Seq(
              (1, "2023-08-01 10:00:00"),
              (2, "2023-08-02 12:00:00"),
              (3, "2023-08-03 15:00:00")
        )

        val columns = Seq("a", "insert_time1")
        val df = spark.createDataFrame(data).toDF(columns: _*)



        val frame = df.drop("insert_time1")
          .withColumn("insert_time", current_timestamp().cast("timestamp"))

        
        // 动态创建分区范围
        // p1 可以换成p20230804这样的分区格式
        // t为表名
        // (TIMESTAMP '2023-08-04 00:00:00') 分区开始范围,一般通过代码生成,为计算时间的零点
        // (TIMESTAMP '2023-08-05 00:00:00') 分区结束范围,一般通过代码生成,为计算时间的下一天零点
        val createPartitionSql =
              s"""
          CREATE TABLE "p1" PARTITION OF t FOR VALUES FROM (TIMESTAMP '2023-08-04 00:00:00') TO (TIMESTAMP '2023-08-05 00:00:00') ;
          """

        println(createPartitionSql)

        // 执行创建分区 SQL
        val connection = java.sql.DriverManager.getConnection(postgresUrl, connectionProperties)
        val statement = connection.createStatement()
        statement.executeUpdate(createPartitionSql)
        connection.close()
        // 将数据写入PostgreSQL分区表
        frame.write
          .mode("append")
          .jdbc(postgresUrl, "t", connectionProperties)
  }
}

完整代码

自动生成当天日期和分区名称

scala 复制代码
object WritePgSQL {

  def main(args: Array[String]): Unit = {

        val spark = SparkSession.builder()
          .appName("SparkPostgreSQLPartitionedTable")
          .config("spark.master", "local")
          .getOrCreate()

        // 设置PostgreSQL连接信息
        val postgresUrl = "jdbc:postgresql://192.168.160.123:5432/test"
        val connectionProperties = new java.util.Properties()
        connectionProperties.setProperty("user", "test")
        connectionProperties.setProperty("password", "123456")
        // 创建测试数据
        val data = Seq(
              (1, "2023-08-01 10:00:00"),
              (2, "2023-08-02 12:00:00"),
              (3, "2023-08-03 15:00:00")
        )

        val columns = Seq("a", "insert_time1")
        val df = spark.createDataFrame(data).toDF(columns: _*)

        val frame = df.drop("insert_time1")
          .withColumn("insert_time", current_timestamp().cast("timestamp"))

        // 获取今天和明天的时间范围
        // 获取当前日期
        val currentDate = LocalDate.now()
        // 获取下一天的日期
        val nextDayDate = currentDate.plusDays(1)
        // 创建固定的时间部分(00:00:00)
        val startTime = LocalTime.of(0, 0, 0)
       // 组合日期和时间来得到完整的日期时间,并格式化为字符串
       val currentDateTimeString = LocalDateTime.of(currentDate, startTime).format(DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"))
       val nextDayDateTimeString = LocalDateTime.of(nextDayDate, startTime).format(DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"))

       // 格式化为yyyyMMdd字符串
       val dateFormatter = DateTimeFormatter.ofPattern("yyyyMMdd")
       val currentDateString = currentDate.format(dateFormatter)

       // 动态创建分区范围
        val createPartitionSql =
              s"""
          CREATE TABLE "p$currentDateString" PARTITION OF t
          FOR VALUES FROM (TIMESTAMP '$currentDateTimeString') TO (TIMESTAMP '$nextDayDateTimeString') ;
          """
        // 执行创建分区 SQL
        val connection = java.sql.DriverManager.getConnection(postgresUrl, connectionProperties)
        val statement = connection.createStatement()
        statement.executeUpdate(createPartitionSql)
        connection.close()
        // 将数据写入PostgreSQL分区表
        frame.write
          .mode("append")
          .jdbc(postgresUrl, "t", connectionProperties)
  }
}

效果

相关推荐
@insist1236 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师6 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记6 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局7 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客9 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20149 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹9 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251810 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
苍煜10 小时前
分布式事务生产实战选型对比
分布式
xiaoduo AI10 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人