flink入门程序(一)

Flink中提供了3个组件,包括DataSource、Transformation和DataSink

DataSource:表示数据源组件,主要用来接收数据,目前官网提

供了readTextFile、socketTextStream、fromCollection以及一些第三方的Source。

Transformation:表示算子,主要用来对数据进行处理,比如Map、FlatMap、Filter、Reduce、Aggregation等。

DataSink:表示输出组件,主要用来把计算的结果输出到其他存

储介质中,比如writeAsText以及Kafka、Redis、Elasticsearch

等第三方Sink组件。

因此,想要组装一个Flink Job,至少需要这3个组件。

以下来看一个flink的入门程序

首先项目里面引入依赖

bash 复制代码
        <!--flink集成-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.13.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.11</artifactId>
            <version>1.13.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.11</artifactId>
            <version>1.13.1</version>
        </dependency>

在这里我使用的是1.13.1版本

开发 Flink 程序有固定的流程

(1)获得 一个执行环境

(2)加载/创建初始化数据

(3)指定操作数据的 Transaction算子

(4)指定计算好的数据的存放位置

(5)调用 execute()触发执行程序

入门案例:flink从文件中读取数据,并统计word的个数,具体代码如下

bash 复制代码
    public static void main(String[] args) throws Exception{
        //获得执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //加载或创建具体数据源
        DataStream<Tuple2<String, Integer>> dataStream =
                 env.readTextFile("C:\\d_disk\\zq_project\\interesting\\src\\main\\resources\\22.txt")
                .flatMap(new Splitter())
                .keyBy(value -> value.f0) //按照元组里面的第一个元素分组
                //.window(TumblingProcessingTimeWindows.of(Time.seconds(5))) //时间窗口
                .sum(1);//按照元组里面的第二个元素求和
        dataStream.print();
        env.execute("wordCount");
    }

    public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
            //根据空格切割行文本
            for (String word: sentence.split(" ")) {
                //把每个切割后的word放到一个二维元组里面,并计数为1
                out.collect(new Tuple2<String, Integer>(word, 1));
            }
        }
    }

txt文本内容如下

bash 复制代码
apple iphone
orange text
apple orange
dog dog cat pig

控制台打印效果如下

bash 复制代码
1> (cat,1)
5> (orange,1)
7> (apple,1)
2> (text,1)
3> (dog,1)
3> (dog,2)
3> (pig,1)
5> (orange,2)
6> (iphone,1)
7> (apple,2)
相关推荐
juniperhan5 小时前
Flink 系列第21篇:Flink SQL 函数与 UDF 全解读:类型推导、开发要点与 Module 扩展
java·大数据·数据仓库·分布式·sql·flink
二十六画生的博客16 小时前
Flink快照保留多久、多少个,设置参数
大数据·flink
渣渣盟17 小时前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
hsD5mSMu519 小时前
从零开始学Flink:Flink SQL 极简入门
大数据·sql·flink
亚马逊云开发者2 天前
EMR Core 节点部署 Flink Client 实战:Bootstrap Action 一次打包多次复用,解决调度系统提交任务的痛点
大数据·flink·bootstrap
juniperhan3 天前
Flink 系列第20篇:Flink SQL 语法全解:从 DDL 到 DML,窗口、聚合、列转行一网打尽
大数据·数据仓库·分布式·sql·flink
大大大大晴天3 天前
Flink技术实践——Flink资源扩缩容方案演进
flink
csgo打的菜又爱玩3 天前
9.Dispatcher 启动流程解析
大数据·flink·源代码管理
大大大大晴天️3 天前
Flink技术实践——Flink资源扩缩容方案演进
大数据·flink