【Flink 30天】Day22-23 FlinkSQL 性能优化:Mini-Batch + 两阶段聚合 + TOP-N + 完整配置

Day 22-23:FlinkSQL 性能优化


1. Mini-Batch(微批优化)

问题:FlinkSQL 默认每条数据到来就触发一次状态读写,高 QPS 下频繁 IO 性能差。

Mini-Batch :积累一批数据,一次性处理,减少状态访问次数

java 复制代码
// 开启 Mini-Batch
TableConfig config = tEnv.getConfig();
config.set("table.exec.mini-batch.enabled", "true");
config.set("table.exec.mini-batch.allow-latency", "5 s");   // 最多等 5 秒
config.set("table.exec.mini-batch.size", "5000");            // 或凑够 5000 条

效果:对聚合操作有 5~10 倍提升,延迟从毫秒级变为秒级(trade-off)。


2. 两阶段聚合(Local-Global Aggregation)

问题:数据倾斜时,某个 key 的所有数据都发到一个 SubTask 处理,单点瓶颈。

两阶段聚合

  • Local 阶段:先在每个 SubTask 本地做部分聚合(打散热 key)
  • Global 阶段:再汇总 Local 的结果
java 复制代码
// 开启两阶段聚合(需要先开启 Mini-Batch)
config.set("table.optimizer.agg-phase-strategy", "TWO_PHASE");
复制代码
原来(一阶段):
数据 → Exchange(hash by userId) → GroupAggregate
热 key "user_001" 全部压到 SubTask 3

两阶段:
数据 → LocalGroupAggregate → Exchange(hash by userId) → GlobalGroupAggregate
热 key "user_001" 先在各 SubTask 局部合并,再汇总 → 均匀分散了压力

3. 去重优化

场景:对一个 Stream 去重,只保留每个 key 的最新一条(或第一条)。

低效写法(产生大量状态)

sql 复制代码
-- 全量 ROW_NUMBER,状态保留所有历史数据
SELECT userId, amount, ts FROM (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY userId ORDER BY ts DESC) AS rn
  FROM events
) WHERE rn = 1;

优化写法

java 复制代码
// 方案1:开启 Deduplication 优化(Flink 自动识别并优化上面的 SQL)
config.set("table.optimizer.distinct-agg.split.enabled", "true");

// 方案2:如果只需要第一条(追加)
SELECT userId, FIRST_VALUE(amount), MIN(ts) FROM events GROUP BY userId;

真正高效的方案:状态 TTL + 幂等写入

java 复制代码
// 给 TableEnv 设置全局 State TTL
config.set("table.exec.state.ttl", "86400 s");  // 1天

4. TOP-N 优化

场景:每分钟统计各品类销售额 TOP 10

sql 复制代码
-- TVF 窗口 + TOP-N(推荐写法,有状态优化)
SELECT category, product, amount, window_start, window_end
FROM (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY window_start, window_end, category
      ORDER BY amount DESC
    ) AS rn
  FROM (
    SELECT category, product,
      SUM(amount) AS amount,
      window_start, window_end
    FROM TABLE(TUMBLE(TABLE sales, DESCRIPTOR(ts), INTERVAL '1' MINUTES))
    GROUP BY window_start, window_end, category, product
  )
)
WHERE rn <= 10;

注意

  • 外层 ROW_NUMBER 必须在 window_start, window_end 上 PARTITION,否则会产生无界状态
  • 结合窗口使用,窗口关闭后状态自动清除

5. 内置优化器配置

java 复制代码
// 谓词下推(自动,无需配置)
// Flink 会把 WHERE 条件尽量推到 Source 端过滤,减少传输数据量

// 投影下推(自动)
// 只读取 SQL 中用到的列

// 开启多阶段聚合
config.set("table.optimizer.agg-phase-strategy", "AUTO");  // 自动选择

// 开启动态过滤(Join 时用小表过滤大表)
config.set("table.optimizer.runtime-filter.enabled", "true");

6. 完整配置参考

java 复制代码
TableConfig config = tEnv.getConfig();

// Mini-Batch
config.set("table.exec.mini-batch.enabled", "true");
config.set("table.exec.mini-batch.allow-latency", "5 s");
config.set("table.exec.mini-batch.size", "5000");

// 两阶段聚合
config.set("table.optimizer.agg-phase-strategy", "TWO_PHASE");

// 全局 State TTL(防止无界状态增长)
config.set("table.exec.state.ttl", "86400 s");

// 去重优化
config.set("table.optimizer.distinct-agg.split.enabled", "true");

小结

优化手段 适用场景 效果
Mini-Batch 高 QPS 聚合 减少状态 IO,5-10 倍提升
两阶段聚合 数据倾斜的聚合 打散热 key
State TTL 所有有状态场景 防止 OOM
窗口代替无界 GROUP BY 能接受窗口粒度的聚合 状态有界
Lookup Join 维度表关联 无状态,实时查询
相关推荐
银河麒麟操作系统17 小时前
银河麒麟桌面操作系统V10SP1(全X86/ARM架构)【进程资源限制与性能优化实践】技术文章
arm开发·性能优化·架构
用户20187928316718 小时前
AI自动化Android性能优化流程畅想
性能优化
无心水20 小时前
【OpenClaw:性能优化】18、OpenClaw WebSocket连接池与消息队列——解决长连接抖动与任务堆积
人工智能·websocket·网络协议·性能优化·openclaw·养龙虾
qq_2468397520 小时前
Redis lua 执行性能优化
redis·性能优化·lua
山峰哥21 小时前
数据库工程中的SQL调优策略与实践:从索引优化到执行计划分析
数据库·sql·性能优化
Gauss松鼠会21 小时前
openGauss数据库源码解析系列文章--openGauss简介(上)
数据库·性能优化·database·opengauss
iPadiPhone1 天前
性能优化的“双刃剑”:MySQL 查询缓存深度架构解析与面试复盘
java·后端·mysql·缓存·面试·性能优化
visual_zhang1 天前
iOS NotificationCenter Observer 的隐性性能代价
性能优化·代码规范
yxy___1 天前
达梦分布式集群DPC_分区表重建与性能优化操作指南_yxy
分布式·性能优化·分区表