Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中

Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中

  • 把两个分区的数据合并到同一个分区下
  • 把其中一个分区的数据通过append方式添加到另一个分区即可
scala 复制代码
%spark
val df = spark.sql("select * from optics_prod.product_1h_a where datetime='2023111423'")
    .repartition(10)
    .write.mode("append")
    .parquet("/optics-prod/dwh/ods/optics/product_1h_a/datetime=2023112223")