大数据Flink(一百一十二):Flink SQL作业快速入门

文章目录

[Flink SQL作业快速入门](#Flink SQL作业快速入门)

一、进入Flink开发平台

二、​​​​​​​创建作业

三、​​​​​​​​​​​​​​编写作业代码

四、​​​​​​​​​​​​​​进行更多配置

五、​​​​​​​​​​​​​​进行深度检查

六、​​​​​​​​​​​​​​进行作业调试

1、​​​​​​​创建Session集群

2、​​​​​​​​​​​​​​调试

七、​​​​​​​​​​​​​​作业部署

八、​​​​​​​​​​​​​​启动并查看Flink计算结果

九、​​​​​​​​​​​​​​停止作业


一、进入Flink开发平台

在阿里云官网首页,点击右上角控制台,进入工作台。

直接点击我的资源下的Flink,或者搜索Flink,进入Flink控制台。

点击实例id,进入Flink项目空间。

二、​​​​​​​​​​​​​​创建作业

在左侧导航栏,单击SQL开发。

在作业草稿下,新建文件夹:阿里云Flink。

在此文件夹下,创建文件夹:快速入门。

在快速入门文件夹下,单击新建作业草稿。

单击空白的流作业草稿。

单击下一步。

在新建文件草稿对话框,填写作业信息。

|--------------|-----------------------------------------------------------------------------------------------------------------------|----------------------|
| 作业参数 | 说明 | 示例 |
| 文件名称 | 作业的名称。 说明 作业名称在当前项目中必须保持唯一。 | flink-sql-test |
| 存储位置 | 指定该作业的代码文件所属的文件夹。 还可以在现有文件夹右侧,单击 图标,新建子文件夹。 | 快速入门 |
| 引擎版本 | 当前作业使用的Flink的引擎版本。 | vvr-6.0.7-flink-1.15 |

单击创建。

三、​​​​​​​​​​​​​​编写作业代码

拷贝如下代码到SQL编辑器上。

sql 复制代码
--创建一个datagen_source临时表。
CREATE TEMPORARY TABLE datagen_source(
  randstr VARCHAR
) WITH (
  'connector' = 'datagen'
);

--创建一个print_table临时表。
CREATE TEMPORARY TABLE print_table(
  randstr  VARCHAR
) WITH (
  'connector' = 'print',
  'logger' = 'true'
);

--将randstr字段的数据打印出来。
INSERT INTO print_table
SELECT SUBSTRING(randstr,0,8) from datagen_source;

说明: 在生产作业中,建议尽量减少临时表的使用,直接使用元数据管理中已经注册的表。

四、​​​​​​​​​​​​​​进行更多配置

在作业开发页面右侧,单击更多配置后,我们可以填写以下参数信息:

  • 引擎版本:建议使用推荐版本或稳定版本,引擎版本标记含义详情如下:
    • 推荐版本(Recommend):当前最新大版本下的最新小版本。
    • 稳定版本(Stable):还在产品服务期内的大版本下最新的小版本,已修复历史版本缺陷。
    • 普通版本(Normal):还在产品服务期内的其他小版本。
    • EOS版本(Eos):超过产品服务期限的版本。
  • 附加依赖文件:作业中需要使用到的附加依赖,例如临时函数等。

五、​​​​​​​​​​​​​​进行深度检查

在作业开发页面顶部,单击深度检查,进行语法检查。

六、​​​​​​​​​​​​​​进行作业调试

1、 ​​​​​​​创建Session集群

调试之前,首先需要创建Session集群并且启动:

在左侧导航栏,单击Session管理。

点击创建Session集群。

按照下图进行配置:

点击创建Session集群,等待一会,可以看到集群状态变为运行中。

2、​​​​​​​​​​​​​​调试

在作业开发页面顶部,单击调试。选择刚才创建的集群,点击下一步。

可以看到调试结果。

我们可以使用作业调试功能模拟作业运行、检查输出结果,验证SELECT或INSERT业务逻辑的正确性,提升开发效率,降低数据质量风险。

七、​​​​​​​​​​​​​​作业部署

在作业开发页面顶部,单击部署,在部署新版本对话框,可根据需要填写或选中相关内容,单击确定。

说明: Session集群适用于非生产环境的开发测试环境,可以使用Session集群模式部署或调试作业,提高作业JM(Job Manager)资源利用率和提高作业启动速度。但不推荐将作业提交至Session集群中,因为会存在业务稳定性问题。

八、​​​​​​​​​​​​​​启动并查看Flink计算结果

在左侧导航栏,单击作业运维。

单击目标作业名称操作列中的启动。

选择无状态启动后,单击启动。当您看到作业状态变为运行中,则代表作业运行正常。

在作业运维详情页面,查看Flink计算结果。

在作业运维页面,单击目标作业名称。

在作业探查页签,在下拉列表中选择运行日志。

单击运行Task Managers页签下的Path,ID。

单击日志,单击下方页面,ctrl+f,在页面搜索PrintSinkOutputWriter相关的日志信息。

可以看到randstr字段的数据已经打印出来。

点击Stdout,向下拉取页面,同样也能看到结果

九、​​​​​​​​​​​​​​停止作业

在作业运维页面单击对应作业右侧的停止,即可停止作业。

如果我们对作业进行了修改(例如更改SQL代码、增删改WITH参数、更改作业版本等),且希望修改生效,则需要先上线,然后停止再启动。另外,如果作业无法复用State,希望作业全新启动时,也需要停止后再启动作业。


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
AI量化投资实验室34 分钟前
deap系统重构,再新增一个新的因子,年化39.1%,卡玛提升至2.76(附python代码)
大数据·人工智能·重构
SelectDB1 小时前
Apache Doris 2.1.8 版本正式发布
大数据·数据库·数据分析
TMT星球1 小时前
生数科技携手央视新闻《文博日历》,推动AI视频技术的创新应用
大数据·人工智能·科技
Dipeak数巅科技3 小时前
数巅科技连续中标大模型项目 持续助力央国企数智化升级
大数据·人工智能·数据分析
Ray.19983 小时前
Flink 的核心特点和概念
大数据·数据仓库·数据分析·flink
极客先躯3 小时前
如何提升flink的处理速度?
大数据·flink·提高处理速度
BestandW1shEs3 小时前
快速入门Flink
java·大数据·flink
速融云5 小时前
汽车制造行业案例 | 发动机在制造品管理全解析(附解决方案模板)
大数据·人工智能·自动化·汽车·制造
金融OG6 小时前
99.11 金融难点通俗解释:净资产收益率(ROE)VS投资资本回报率(ROIC)VS总资产收益率(ROA)
大数据·python·算法·机器学习·金融
Linux运维老纪6 小时前
分布式存储的技术选型之HDFS、Ceph、MinIO对比
大数据·分布式·ceph·hdfs·云原生·云计算·运维开发