Flink SQL TopN

  • Flink SQL 对于批处理(Batch)和流处理(streaming)模式的SQL,都支持 Top-N 查询。
  • Top-N 查询可以根据指定列排序后获得前 N 个最小或最大值。并且该结果集还可用于进一步分析。
  • Flink 使用 OVER 窗口子句和过滤条件的组合来表达一个 Top-N 查询。借助 OVER 窗口的 PARTITION BY 子句能力,Flink 也能支持分组 Top-N。

1、SQL 语法标准:

sql 复制代码
SELECT [column_list]
FROM (
   SELECT [column_list],
     ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]]
       ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS rownum
   FROM table_name)
WHERE rownum <= N [AND conditions]

2、参数说明:

  • ROW_NUMBER():根据分区数据的排序,为每一行分配一个唯一且连续的序号,从 1 开始。目前,只支持 ROW_NUMBER 作为 OVER 窗口函数。未来会支持 RANK() 和 DENSE_RANK()。
  • PARTITION BY col1[, col2...]:指定分区字段。每个分区都会有一个 Top-N 的结果。
  • ORDER BY col1 [asc|desc][, col2 [asc|desc]...]: 指定排序列。 每个列的排序类型(ASC/DESC)可以不同。
  • WHERE rownum <= N: Flink 需要 rownum <= N 才能识别此查询是 Top-N 查询。 N 表示将要保留 N 个最大或最小数据。
  • AND conditions\]: 可以在 WHERE 子句中添加其他条件,但是这些其他条件和 rownum \<= N 需要使用 AND 结合。

输出的位置必须支持更新,比如mysql、clickhouse等关系型数据库,print等

不可以输出到文件系统,否则会报错误:

bash 复制代码
Exception in thread "main" org.apache.flink.table.api.TableException: Table sink 'default_catalog.default_database.sink_order' doesn't support consuming update and delete changes which is produced by node Rank(strategy=[UndefinedStrategy], rankType=[ROW_NUMBER], rankRange=[rankStart=1, rankEnd=10], partitionBy=[dataType], orderBy=[id ASC], select=[date, source_length])
相关推荐
驾数者1 小时前
Flink SQL入门指南:从零开始搭建流处理应用
大数据·sql·flink
KM_锰1 小时前
flink开发遇到的问题
大数据·flink
Hello.Reader11 小时前
Flink 流式计算的状态之道从 Table/SQL 语义到算子状态与 TTL 精准控制
sql·flink·linq
青云交19 小时前
Java 大视界 -- 基于 Java 的大数据实时流处理在能源行业设备状态监测与故障预测中的应用
flink·lstm·设备状态监测·故障预测·实时流处理·java 大数据·能源行业
努力成为一个程序猿.1 天前
Flink集群部署以及作业提交模式详解
大数据·flink
努力成为一个程序猿.1 天前
【Flink】FlinkSQL-动态表和持续查询概念
大数据·数据库·flink
J-JunLiang1 天前
Flink 实时开发:关键知识点
大数据·flink
yumgpkpm1 天前
Doris在CMP7(类Cloudera CDP 7 404版华为Kunpeng)启用 Kerberos部署Doris
大数据·hive·hadoop·python·oracle·flink·cloudera
yumgpkpm1 天前
CMP7(类Cloudera CMP 7 404版华为Kunpeng)用开源软件Label Studio做数据标注
hdfs·flink