从零开始学Flink:Flink SQL 极简入门

  1. 低门槛:会写 SQL 就能开发实时任务。
  2. 统一性:批流一体,同一套 SQL 既可以跑历史数据(批),也可以跑实时数据(流)。
  3. 生态丰富:内置了大量的 Connector(连接器),轻松连接 Kafka、MySQL、Hive 等主流组件。

(图:Flink SQL 架构示意图,展示 SQL 解析、优化到执行的过程)

二、环境准备 (WSL2 Ubuntu)

本教程演示环境为 Windows 下的 WSL2 (Ubuntu 20.04/22.04),这是目前 Windows 用户体验 Linux 开发环境的最佳姿势。

参考以前写的 Flink 环境。

Flink 提供了一个交互式的命令行工具:SQL Client。它允许你直接在终端编写和提交 SQL 任务。

1. 启动 SQL Client

如果没有启动Flink集群,则先启动flink集群:

复制代码
./bin/start-cluster.sh

,然后在 Flink 目录下执行:

复制代码
./bin/sql-client.sh

你将看到那只著名的松鼠 LOGO:

(图:SQL Client 启动欢迎界面)

2. Hello World:数据生成与打印

我们不依赖任何外部组件(如 Kafka),直接使用 Flink 内置的 datagen 连接器生成模拟数据,并用 print 连接器打印结果。

第一步:创建源表 (Source Table)

复制以下 SQL 到 SQL Client 中执行:

复制代码
CREATE TABLE source_table (
    id INT,
    name STRING,
    ts TIMESTAMP(3),
    WATERMARK FOR ts AS ts - INTERVAL '5' SECOND
) WITH (
    'connector' = 'datagen',       -- 使用数据生成器
    'rows-per-second' = '1',       -- 每秒生成1条数据
    'fields.id.kind' = 'sequence', -- id 字段为序列
    'fields.id.start' = '1',       -- id 从1开始
    'fields.id.end' = '100'        -- id 到100结束
);

执行后显示 [INFO] Execute statement succeed.

第二步:创建结果表 (Sink Table)

复制代码
CREATE TABLE print_table (
    id INT,
    name STRING,
    ts TIMESTAMP(3)
) WITH (
    'connector' = 'print'          -- 使用控制台打印连接器
);

第三步:提交任务

将源表的数据插入到结果表:

复制代码
INSERT INTO print_table SELECT * FROM source_table;

此时,SQL Client 会提交一个异步任务到集群。你会看到类似 Job ID 的输出。

3. 查看运行结果

由于我们使用的是 print 连接器,在 Standalone 模式下,输出会打印到 TaskManager 的日志文件中。

打开一个新的 WSL2 终端窗口,进入 Flink 目录查看日志:

复制代码
# 进入 log 目录
cd log

# 查看最新的 .out 文件 (文件名包含 taskexecutor)
tail -f flink-*-taskexecutor-*.out

你应该能看到屏幕上不断跳动的数据流:

(图:终端 tail -f 命令看到的实时数据输出)

四、常用命令速查

在 SQL Client 中,你可以使用以下命令:

  • HELP: 查看帮助。
  • SHOW TABLES: 查看当前创建的表。
  • SHOW JOBS: 查看运行中的作业。
  • DESCRIBE table_name: 查看表结构。
  • QUIT: 退出 SQL Client。

五、总结

恭喜你!你已经成功运行了人生中第一个 Flink SQL 任务。

通过本文,我们完成了:

相关推荐
阿里云大数据AI技术1 天前
StarRocks x Fluss x Paimon湖流一体方案:构建秒级响应、湖流一体的实时数据引擎
大数据·人工智能
Databend1 天前
Agent 轨迹分析与归因的数据工程实践
大数据·数据库·agent
喵个咪1 天前
Go Wind UBA 拆解系列 - 架构总览:三服务、数据流与契约优先
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - 多租户与安全:两套隔离机制的边界
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - OLAP 与 SQL 硬核:25 个分析模型怎么落地
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - SDK 与采集层:从浏览器到 Kafka
大数据·后端·go
一条鱼丶1 天前
深入理解 Flink Watermark——流数据处理中的乱序问题解决方案
flink
QCC产品中心1 天前
MiniMax Agent 接入实测:企业查询、股权穿透与 UBO 识别(附 Prompt 模板)
大数据·mcp·金融/非金融
大大大大晴天1 天前
Flink SQL 从编写到提交运行的全过程解析
flink
SelectDB2 天前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python