Flink SQL INSERT 语句单表写入、多表分流、分区覆盖与 StatementSet

1. INSERT 语句是干嘛的

INSERT 用于把查询结果或字面量数据写入目标表(sink 表)。在 Flink 里,执行 INSERT 会提交一个 Flink Job(流式作业通常是长期运行)。


2. Java 里怎么跑 INSERT:单条 executeSql vs 多条 StatementSet

2.1 单条 INSERT:executeSql 立即提交作业

executeSql() 执行 INSERT 会立刻提交 Job,并返回 TableResult,你可以通过它拿到 JobClient 查询状态。

java 复制代码
TableEnvironment tEnv = TableEnvironment.create(...);

// source & sink
tEnv.executeSql("CREATE TABLE Orders (`user` BIGINT, product VARCHAR, amount INT) WITH (...)");
tEnv.executeSql("CREATE TABLE RubberOrders(product VARCHAR, amount INT) WITH (...)");

// submit job immediately
TableResult r1 = tEnv.executeSql(
  "INSERT INTO RubberOrders " +
  "SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'"
);

System.out.println(r1.getJobClient().get().getJobStatus());

2.2 多条 INSERT:StatementSet.addInsertSql 延迟执行,一次 execute 提交

当你要把同一个源表数据分流写入多个 sink(比如 RubberOrders、GlassOrders),用 StatementSet 更合适:先 addInsertSql() 收集多条语句,最后 execute() 一次性提交。

java 复制代码
tEnv.executeSql("CREATE TABLE GlassOrders(product VARCHAR, amount INT) WITH (...)");

StatementSet stmtSet = tEnv.createStatementSet();

stmtSet.addInsertSql(
  "INSERT INTO RubberOrders SELECT product, amount FROM Orders WHERE product LIKE '%Rubber%'"
);
stmtSet.addInsertSql(
  "INSERT INTO GlassOrders SELECT product, amount FROM Orders WHERE product LIKE '%Glass%'"
);

TableResult r2 = stmtSet.execute();
System.out.println(r2.getJobClient().get().getJobStatus());

注意:addInsertSql() 每次只能接收一条 INSERT 语句(不要把多个 INSERT 拼一条字符串)。

3. INSERT INTO / INSERT OVERWRITE:追加 vs 覆盖

3.1 总体语法(Insert from Select)

sql 复制代码
[EXECUTE] INSERT { INTO | OVERWRITE } [catalog.][db.]table_name
  [PARTITION part_spec]
  [column_list]
  select_statement

3.2 INTO:追加写入(Append)

  • 不覆盖已有数据(或已有分区数据),新结果继续追加。

3.3 OVERWRITE:覆盖写入(Overwrite)

  • INSERT OVERWRITE 会覆盖目标表或目标分区已有数据。
  • 常用于离线批处理、重跑分区、或者"以最后一次跑出来的结果为准"的场景。

4. 分区写入:静态分区 vs 动态分区

假设目标表是分区表:

sql 复制代码
CREATE TABLE country_page_view (
  user STRING,
  cnt INT,
  date STRING,
  country STRING
)
PARTITIONED BY (date, country)
WITH (...);

4.1 写入静态分区(date/country 都固定)

sql 复制代码
INSERT INTO country_page_view PARTITION (date='2019-8-30', country='China')
SELECT user, cnt FROM page_view_source;

4.2 半动态分区(date 固定、country 每行决定)

sql 复制代码
INSERT INTO country_page_view PARTITION (date='2019-8-30')
SELECT user, cnt, country FROM page_view_source;

4.3 覆盖分区写入(静态/半动态都支持)

sql 复制代码
INSERT OVERWRITE country_page_view PARTITION (date='2019-8-30', country='China')
SELECT user, cnt FROM page_view_source;

INSERT OVERWRITE country_page_view PARTITION (date='2019-8-30')
SELECT user, cnt, country FROM page_view_source;

5. EXECUTE 关键字:显式执行(语义等价)

Flink 允许在 INSERT 前面加 EXECUTE,用于强调"我要执行这条语句",但语义上等价于不加。

sql 复制代码
EXECUTE INSERT INTO country_page_view PARTITION (date='2019-8-30', country='China')
SELECT user, cnt FROM page_view_source;

6. column_list:部分列写入(Partial Insert)怎么映射?

Flink 支持指定目标列列表,把 SELECT 的列按列表顺序写入指定列,未写到的列会被置为 NULL(前提:该列可空)。

例:表 T(a INT, b INT, c INT)

sql 复制代码
INSERT INTO T(c, b)
SELECT x, y FROM S;

含义是:

  • x 写入 c
  • y 写入 b
  • a 被置为 NULL(如果 a 允许为 NULL)

对 connector/sink 开发者:可以通过 DynamicTableSink.Context.getTargetColumns() 获取用户指定的目标列,决定如何处理"部分列更新"。

7. INSERT ... VALUES:直接插入字面量行

除了 INSERT INTO ... SELECT ...,也可以直接写 values:

sql 复制代码
[EXECUTE] INSERT { INTO | OVERWRITE } table_name
VALUES (val1, val2, ...), (val1, val2, ...);

示例:

sql 复制代码
CREATE TABLE students (name STRING, age INT, gpa DECIMAL(3, 2)) WITH (...);

INSERT INTO students
VALUES ('fred flintstone', 35, 1.28),
       ('barney rubble', 32, 2.32);

8. 一条 SQL 写多个表:EXECUTE STATEMENT SET

如果你在 SQL 层就想"一次提交多条 insert",可以用:

sql 复制代码
EXECUTE STATEMENT SET
BEGIN
  insert_statement;
  insert_statement;
END;

其中 insert_statement 可以是 INSERT ... SELECTINSERT ... VALUES

9. 生产实践建议(你放到博客结尾很加分)

  1. 多 sink 分流优先用 StatementSet:一次提交、共享规划,写法更稳。
  2. OVERWRITE 慎用:尤其是流式任务,确认 connector 对覆盖语义的支持与目标表期望行为。
  3. 分区写入要区分静态/动态:静态分区适合重跑;动态分区适合实时按维度落地。
  4. 部分列写入会把其它列写成 NULL:对非空列/主键列要提前约束,否则容易写入失败或产生脏数据。
相关推荐
马克学长4 小时前
SSM小型餐饮综合管理系统j1c7m(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架·小型餐饮管理系统·菜品管理·员工考勤
葱卤山猪4 小时前
【Qt】心跳检测与粘包处理:打造稳定可靠的TCP Socket通信
开发语言·数据库·qt
expect7g4 小时前
Paimon源码解读 -- Compaction-9.SortMergeReaderWithLoserTree
大数据·后端·flink
qq_12498707534 小时前
基于Spring Boot的社区医院管理系统的设计与实现(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·毕业设计
JZC_xiaozhong4 小时前
金蝶+鼎捷+泛微三系统打通难?制造企业集成方案
数据库·制造·敏捷流程·流程自动化·数据集成与应用集成·业务流程管理·流程监控
SelectDB4 小时前
较 Trino 省 67% 成本,速度快 10 倍,中通快递基于 SelectDB 的湖仓分析架构
数据库·数据分析
自在极意功。4 小时前
深入剖析MyBatis事务管理机制:原理、配置与实践
java·数据库·mybatis·事务
郭庆汝4 小时前
Neo4j数据库中批量插入数据(数据在.csv文件中)
数据库·neo4j
占疏4 小时前
流程图编辑
java·数据库·sql