spark写入关系型数据库的duplicateIncs参数使用

后季暖2023-11-26 17:07

在看一段spark写数据到关系型数据库代码时，发现一个参数没有见过：

Scala 复制代码

df.write
      .format("org.apache.spark.sql.execution.datasources.jdbc2")
      .options(
        Map(
          "savemode" -> JDBCSaveMode.Update.toString,
          "driver" -> exportDriver,
          "url" -> exportUrl,
          "user" -> exportUserName,
          "password" -> exportPassword,
          "dbtable" -> targetTable,
          "useSSL" -> "false",
          "duplicateIncs" -> "",//需要更新的字段,不写全部根据主键更新
          "showSql" -> "true"
        )
      ).save()

那就是duplicateIncs，翻阅相关资料：

这应该是mysql 4.1之后的一个可用配置，比如：

Scala 复制代码

UPDATE table SET c=c+1 WHERE a=1;

如果是用insert语句，怎么达到相同的效果呢？（指定某个字段更新）

Scala 复制代码

INSERT INTO table (a,b,c) VALUES (1,2,3) ON DUPLICATE KEY UPDATE c=c+1;

当然前提是，这个表要有主键或唯一索引，这里是a字段。

还可以指定多个字段：ON DUPLICATE KEY UPDATE后面可以放多个字段，用英文逗号分割。

下面是表中更改（增加或修改）两条记录的例子：

Scala 复制代码

  INSERT INTO table (a,b,c) VALUES (1,2,3),(4,5,6)  
  ON DUPLICATE KEY UPDATE c=VALUES(a)+VALUES(b);