Flink笔记整理(三)

Flink笔记整理(三)


文章目录


五、DataStream API

DataStream API是Flink的核心层API,一个Flink程序,其实本质就是对DataStream的各种转换。

5.1Environment

创建执行环境

java 复制代码
// 最简单,最常用
StreamExecutionEnvironment env = StreamExecutionEnvironment
                              .getExecutionEnvironment();
                              
// 本地执行环境(很少用)
StreamExecutionEnvironment localEnv = StreamExecutionEnvironment
                              .createLocalEnvironment();  
                              
// 远程集群执行环境
StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment
      .createRemoteEnvironment(
        "host",                   // JobManager主机名
        1234,                     // JobManager进程端口号
         "path/to/jarFile.jar"  // 提交给JobManager的JAR包
    );

设置执行模式

java 复制代码
// 默认流模式执行,可改为批执行模式

// 命令行(更常用)
bin/flink run -Dexecution.runtime-mode=BATCH ...

// 代码写死(用得比较少,测试的时候可以用用)
StreamExecutionEnvironment env = StreamExecutionEnvironment
                    .getExecutionEnvironment();

env.setRuntimeMode(RuntimeExecutionMode.BATCH);

触发执行

Flink是由事件驱动的,只有等到数据到来,才会触发真正的计算,这也被称为"延迟执行"或"懒执行"。

java 复制代码
env.execute();

5.2 Source

Flink可以从各种来源获取数据,然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源(data source),而读取数据的算子就是源算子(source operator)。所以,source就是整个处理程序的输入端。

java 复制代码
// 12版本以后的统一写法
DataStreamSource<String> stream = env.fromSource(...)

Flink支持的Source以及代码

5.3 Transformation

转换算子,将一个或多个DataStream转换为新的DataStream。

Flink支持的Transformation以及代码

5.4 Sink

Flink支持的Sink以及代码


总结

相关推荐
智能化咨询1 小时前
(66页PPT)某著名企业XX集团数据分析平台建设项目方案设计(附下载方式)
大数据·人工智能·数据分析
ImproveJin1 小时前
Flink MySql CDC 源码剖析
mysql·flink·cdc
位文杰TOP1 小时前
博客摘录「 六自由度机械臂运动学分析及其轨迹规划」2024年10月8日
笔记
新诺韦尔API1 小时前
手机在网时长查询接口对接全流程详解
大数据·网络·api
LplLpl118 小时前
AI 算法竞赛通关指南:基于深度学习的图像分类模型优化实战
大数据·人工智能·机器学习
Promise4858 小时前
贝尔曼公式的迭代求解笔记
笔记·算法
庄小焱9 小时前
大数据治理域——数据资产管理示例
大数据·数据治理·大数据治理·数据治理实践
锦锦锦aaa10 小时前
【layout理解篇之:mos电阻】
经验分享·笔记
zore_c10 小时前
【C语言】带你层层深入指针——指针详解2
c语言·开发语言·c++·经验分享·笔记
koo36410 小时前
pytorch深度学习笔记
pytorch·笔记·深度学习