大数据Flink(一百一十二):Flink SQL作业快速入门

文章目录

[Flink SQL作业快速入门](#Flink SQL作业快速入门)

一、进入Flink开发平台

二、​​​​​​​创建作业

三、​​​​​​​​​​​​​​编写作业代码

四、​​​​​​​​​​​​​​进行更多配置

五、​​​​​​​​​​​​​​进行深度检查

六、​​​​​​​​​​​​​​进行作业调试

1、​​​​​​​创建Session集群

2、​​​​​​​​​​​​​​调试

七、​​​​​​​​​​​​​​作业部署

八、​​​​​​​​​​​​​​启动并查看Flink计算结果

九、​​​​​​​​​​​​​​停止作业


一、进入Flink开发平台

在阿里云官网首页,点击右上角控制台,进入工作台。

直接点击我的资源下的Flink,或者搜索Flink,进入Flink控制台。

点击实例id,进入Flink项目空间。

二、​​​​​​​​​​​​​​创建作业

在左侧导航栏,单击SQL开发。

在作业草稿下,新建文件夹:阿里云Flink。

在此文件夹下,创建文件夹:快速入门。

在快速入门文件夹下,单击新建作业草稿。

单击空白的流作业草稿。

单击下一步。

在新建文件草稿对话框,填写作业信息。

|--------------|-----------------------------------------------------------------------------------------------------------------------|----------------------|
| 作业参数 | 说明 | 示例 |
| 文件名称 | 作业的名称。 说明 作业名称在当前项目中必须保持唯一。 | flink-sql-test |
| 存储位置 | 指定该作业的代码文件所属的文件夹。 还可以在现有文件夹右侧,单击 图标,新建子文件夹。 | 快速入门 |
| 引擎版本 | 当前作业使用的Flink的引擎版本。 | vvr-6.0.7-flink-1.15 |

单击创建。

三、​​​​​​​​​​​​​​编写作业代码

拷贝如下代码到SQL编辑器上。

sql 复制代码
--创建一个datagen_source临时表。
CREATE TEMPORARY TABLE datagen_source(
  randstr VARCHAR
) WITH (
  'connector' = 'datagen'
);

--创建一个print_table临时表。
CREATE TEMPORARY TABLE print_table(
  randstr  VARCHAR
) WITH (
  'connector' = 'print',
  'logger' = 'true'
);

--将randstr字段的数据打印出来。
INSERT INTO print_table
SELECT SUBSTRING(randstr,0,8) from datagen_source;

说明: 在生产作业中,建议尽量减少临时表的使用,直接使用元数据管理中已经注册的表。

四、​​​​​​​​​​​​​​进行更多配置

在作业开发页面右侧,单击更多配置后,我们可以填写以下参数信息:

  • 引擎版本:建议使用推荐版本或稳定版本,引擎版本标记含义详情如下:
    • 推荐版本(Recommend):当前最新大版本下的最新小版本。
    • 稳定版本(Stable):还在产品服务期内的大版本下最新的小版本,已修复历史版本缺陷。
    • 普通版本(Normal):还在产品服务期内的其他小版本。
    • EOS版本(Eos):超过产品服务期限的版本。
  • 附加依赖文件:作业中需要使用到的附加依赖,例如临时函数等。

五、​​​​​​​​​​​​​​进行深度检查

在作业开发页面顶部,单击深度检查,进行语法检查。

六、​​​​​​​​​​​​​​进行作业调试

1、 ​​​​​​​创建Session集群

调试之前,首先需要创建Session集群并且启动:

在左侧导航栏,单击Session管理。

点击创建Session集群。

按照下图进行配置:

点击创建Session集群,等待一会,可以看到集群状态变为运行中。

2、​​​​​​​​​​​​​​调试

在作业开发页面顶部,单击调试。选择刚才创建的集群,点击下一步。

可以看到调试结果。

我们可以使用作业调试功能模拟作业运行、检查输出结果,验证SELECT或INSERT业务逻辑的正确性,提升开发效率,降低数据质量风险。

七、​​​​​​​​​​​​​​作业部署

在作业开发页面顶部,单击部署,在部署新版本对话框,可根据需要填写或选中相关内容,单击确定。

说明: Session集群适用于非生产环境的开发测试环境,可以使用Session集群模式部署或调试作业,提高作业JM(Job Manager)资源利用率和提高作业启动速度。但不推荐将作业提交至Session集群中,因为会存在业务稳定性问题。

八、​​​​​​​​​​​​​​启动并查看Flink计算结果

在左侧导航栏,单击作业运维。

单击目标作业名称操作列中的启动。

选择无状态启动后,单击启动。当您看到作业状态变为运行中,则代表作业运行正常。

在作业运维详情页面,查看Flink计算结果。

在作业运维页面,单击目标作业名称。

在作业探查页签,在下拉列表中选择运行日志。

单击运行Task Managers页签下的Path,ID。

单击日志,单击下方页面,ctrl+f,在页面搜索PrintSinkOutputWriter相关的日志信息。

可以看到randstr字段的数据已经打印出来。

点击Stdout,向下拉取页面,同样也能看到结果

九、​​​​​​​​​​​​​​停止作业

在作业运维页面单击对应作业右侧的停止,即可停止作业。

如果我们对作业进行了修改(例如更改SQL代码、增删改WITH参数、更改作业版本等),且希望修改生效,则需要先上线,然后停止再启动。另外,如果作业无法复用State,希望作业全新启动时,也需要停止后再启动作业。


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
zhixingheyi_tian6 小时前
Spark 之 Aggregate
大数据·分布式·spark
PersistJiao6 小时前
Spark 分布式计算中网络传输和序列化的关系(一)
大数据·网络·spark
宅小海8 小时前
scala String
大数据·开发语言·scala
小白的白是白痴的白8 小时前
11.17 Scala练习:梦想清单管理
大数据
java1234_小锋9 小时前
Elasticsearch是如何实现Master选举的?
大数据·elasticsearch·搜索引擎
宝哥大数据10 小时前
Flink Joins
flink
Java 第一深情13 小时前
零基础入门Flink,掌握基本使用方法
大数据·flink·实时计算
我的K840913 小时前
Flink整合Hudi及使用
linux·服务器·flink
MXsoft61813 小时前
华为服务器(iBMC)硬件监控指标解读
大数据·运维·数据库
PersistJiao14 小时前
Spark 分布式计算中网络传输和序列化的关系(二)
大数据·网络·spark·序列化·分布式计算