【Flink 30天】Day22-23 FlinkSQL 性能优化:Mini-Batch + 两阶段聚合 + TOP-N + 完整配置

Day 22-23:FlinkSQL 性能优化


1. Mini-Batch(微批优化)

问题:FlinkSQL 默认每条数据到来就触发一次状态读写,高 QPS 下频繁 IO 性能差。

Mini-Batch :积累一批数据,一次性处理,减少状态访问次数

java 复制代码
// 开启 Mini-Batch
TableConfig config = tEnv.getConfig();
config.set("table.exec.mini-batch.enabled", "true");
config.set("table.exec.mini-batch.allow-latency", "5 s");   // 最多等 5 秒
config.set("table.exec.mini-batch.size", "5000");            // 或凑够 5000 条

效果:对聚合操作有 5~10 倍提升,延迟从毫秒级变为秒级(trade-off)。


2. 两阶段聚合(Local-Global Aggregation)

问题:数据倾斜时,某个 key 的所有数据都发到一个 SubTask 处理,单点瓶颈。

两阶段聚合

  • Local 阶段:先在每个 SubTask 本地做部分聚合(打散热 key)
  • Global 阶段:再汇总 Local 的结果
java 复制代码
// 开启两阶段聚合(需要先开启 Mini-Batch)
config.set("table.optimizer.agg-phase-strategy", "TWO_PHASE");
复制代码
原来(一阶段):
数据 → Exchange(hash by userId) → GroupAggregate
热 key "user_001" 全部压到 SubTask 3

两阶段:
数据 → LocalGroupAggregate → Exchange(hash by userId) → GlobalGroupAggregate
热 key "user_001" 先在各 SubTask 局部合并,再汇总 → 均匀分散了压力

3. 去重优化

场景:对一个 Stream 去重,只保留每个 key 的最新一条(或第一条)。

低效写法(产生大量状态)

sql 复制代码
-- 全量 ROW_NUMBER,状态保留所有历史数据
SELECT userId, amount, ts FROM (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY userId ORDER BY ts DESC) AS rn
  FROM events
) WHERE rn = 1;

优化写法

java 复制代码
// 方案1:开启 Deduplication 优化(Flink 自动识别并优化上面的 SQL)
config.set("table.optimizer.distinct-agg.split.enabled", "true");

// 方案2:如果只需要第一条(追加)
SELECT userId, FIRST_VALUE(amount), MIN(ts) FROM events GROUP BY userId;

真正高效的方案:状态 TTL + 幂等写入

java 复制代码
// 给 TableEnv 设置全局 State TTL
config.set("table.exec.state.ttl", "86400 s");  // 1天

4. TOP-N 优化

场景:每分钟统计各品类销售额 TOP 10

sql 复制代码
-- TVF 窗口 + TOP-N(推荐写法,有状态优化)
SELECT category, product, amount, window_start, window_end
FROM (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY window_start, window_end, category
      ORDER BY amount DESC
    ) AS rn
  FROM (
    SELECT category, product,
      SUM(amount) AS amount,
      window_start, window_end
    FROM TABLE(TUMBLE(TABLE sales, DESCRIPTOR(ts), INTERVAL '1' MINUTES))
    GROUP BY window_start, window_end, category, product
  )
)
WHERE rn <= 10;

注意

  • 外层 ROW_NUMBER 必须在 window_start, window_end 上 PARTITION,否则会产生无界状态
  • 结合窗口使用,窗口关闭后状态自动清除

5. 内置优化器配置

java 复制代码
// 谓词下推(自动,无需配置)
// Flink 会把 WHERE 条件尽量推到 Source 端过滤,减少传输数据量

// 投影下推(自动)
// 只读取 SQL 中用到的列

// 开启多阶段聚合
config.set("table.optimizer.agg-phase-strategy", "AUTO");  // 自动选择

// 开启动态过滤(Join 时用小表过滤大表)
config.set("table.optimizer.runtime-filter.enabled", "true");

6. 完整配置参考

java 复制代码
TableConfig config = tEnv.getConfig();

// Mini-Batch
config.set("table.exec.mini-batch.enabled", "true");
config.set("table.exec.mini-batch.allow-latency", "5 s");
config.set("table.exec.mini-batch.size", "5000");

// 两阶段聚合
config.set("table.optimizer.agg-phase-strategy", "TWO_PHASE");

// 全局 State TTL(防止无界状态增长)
config.set("table.exec.state.ttl", "86400 s");

// 去重优化
config.set("table.optimizer.distinct-agg.split.enabled", "true");

小结

优化手段 适用场景 效果
Mini-Batch 高 QPS 聚合 减少状态 IO,5-10 倍提升
两阶段聚合 数据倾斜的聚合 打散热 key
State TTL 所有有状态场景 防止 OOM
窗口代替无界 GROUP BY 能接受窗口粒度的聚合 状态有界
Lookup Join 维度表关联 无状态,实时查询
相关推荐
计算机安禾4 小时前
【c++面向对象编程】第35篇:构造函数与异常:如何避免资源泄露?
开发语言·javascript·c++·算法·性能优化
绝知此事4 小时前
【计算机网络系列 3/3】网络安全与性能优化:HTTPS、WebSocket、负载均衡实战
计算机网络·web安全·性能优化
WL_Aurora5 小时前
MySQL慢查询分析与优化实战
mysql·性能优化·慢查询·查询优化
阿坤带你走近大数据18 小时前
Java中的JVM、类加载记住、多线程、性能优化的概念
java·jvm·性能优化
不是山谷.:.21 小时前
前端性能优化全解析:从原理到落地,覆盖全领域与多技术栈
前端·笔记·性能优化·状态模式
xG8XPvV5d21 小时前
NUMA架构:多核性能优化指南
性能优化·架构
计算机安禾1 天前
【c++面向对象编程】第32篇:移动语义与右值引用:现代C++性能优化核心
java·c++·性能优化
之歆1 天前
DAY_13JavaScript DOM 操作完全指南:实战案例、性能优化与业务价值(下)
开发语言·前端·javascript·性能优化·ecmascript
Gauss松鼠会1 天前
【GaussDB】GaussDB 常见问题及解决方案汇总
java·数据库·算法·性能优化·gaussdb·经验总结
高级c1 天前
【FlashAttention 在昇腾 CANN 上的实现原理与性能优化】
性能优化