Flink简介及小案例

Apache Flink 是一个用于分布式数据流处理的框架,常用于实时大数据处理和批处理。Flink 的操作可以分为两个方面:安装配置编写任务代码。下面对这两块做一下简单的介绍。

从 Apache Flink 的官网上下载对应的二进制包 Flink 下载页面

bash 复制代码
# 使用wget下载
wget https://downloads.apache.org/flink/flink-1.14.4/flink-1.14.4-bin-scala_2.12.tgz

# 解压
tar -xzf flink-1.14.4-bin-scala_2.12.tgz
cd flink-1.14.4
  • 配置文件路径:conf/flink-conf.yaml
  • 可修改的参数:
    • jobmanager.rpc.address: 设置为 JobManager 的主机名或 IP 地址。
    • taskmanager.numberOfTaskSlots: 每个 TaskManager 可以配置的 slot 数量。

Flink 可以本地运行,也可以运行在分布式集群上。下面展示在本地启动 Flink 的命令:

bash 复制代码
# 启动 Flink 集群
./bin/start-cluster.sh

启动后可以通过浏览器访问 localhost:8081 来查看 Flink Web UI,查看作业状态和集群信息。

Flink 任务主要分为两类:DataStream API (用于流处理)和 DataSet API(用于批处理)。这里我们主要介绍流处理。

(1) 设置开发环境

通常我们使用 Java 或 Scala 编写 Flink 应用。在 Maven 项目中,可以通过添加以下依赖来集成 Flink:

xml 复制代码
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>1.14.4</version>
</dependency>
(2) 示例代码

一个简单的流处理任务的 Java 代码如下:

java 复制代码
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class FlinkExample {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 生成数据源
        DataStream<String> text = env.fromElements("hello", "world", "flink", "streaming");

        // 进行简单的转换操作,如 map
        DataStream<String> upperCaseStream = text.map(String::toUpperCase);

        // 打印结果到控制台
        upperCaseStream.print();

        // 启动程序
        env.execute("Flink Streaming Example");
    }
}
(3) 提交任务

当任务编写完成后,可以通过以下命令将任务提交到 Flink 集群:

bash 复制代码
# 提交任务到 Flink 集群
./bin/flink run -c <MainClass> <JAR文件路径>

例如:

bash 复制代码
./bin/flink run -c com.example.FlinkExample /path/to/flink-example.jar

3. 常用操作

Flink 提供了很多常用操作用于流数据处理:

  • map(): 对流中的每个元素应用一个函数。
  • filter(): 过滤掉不符合条件的元素。
  • keyBy(): 基于某个字段对流进行分组。
  • window(): 对流数据进行窗口化处理(如基于时间窗口或数量窗口)。
  • reduce(): 聚合操作,对窗口中的数据进行累积处理。

这些操作组合起来可以实现复杂的实时数据处理逻辑。

总结

Flink 的操作主要包括集群的搭建与配置,以及通过 API 编写数据处理任务。安装和启动相对简单,而任务的实现可以根据需求组合不同的算子来实现复杂的处理逻辑。如果你有具体的任务需求或想了解某些细节,我可以为你提供更详细的帮助。

相关推荐
志栋智能2 小时前
超自动化安全:实现安全运营现代化的关键
大数据·运维·网络·安全·自动化
渣渣盟2 小时前
MySQL DDL操作全解析:从入门到精通,包含索引视图分区表等全操作解析
大数据·数据库·mysql
unclejet2 小时前
颠覆传统开发!AI根治软件工程技术债务顽疾
大数据·人工智能·软件工程
赴山海bi3 小时前
如何在不降低销量的情况下降低亚马逊ACOS
大数据
大大大大晴天️3 小时前
告别数据重复与丢失:Flink Exactly-Once 原理解析
大数据·flink
Ztopcloud极拓云视角3 小时前
Claude Opus 4.8 实战接入指南:动态工作流 + 思考投入控制深度使用
大数据·人工智能·gpt·claude·deepseek
hg01184 小时前
今年1至4月 厦门进出口超3000亿元
大数据
明航咨询—张老师4 小时前
软件工程造价师认证实战应用与职业价值指南
大数据·证书·软件工程·it
美林数据Tempodata4 小时前
从“建起来“到“用起来“:高校大数据实验室建设的系统性解法
大数据·大数据实训室·大数据实验室
云天AI实战派4 小时前
跨境出海工具链实战:用开源方案搭一套建站 + 订阅支付 + 数据看板 + 多语言 SEO 最小闭环
大数据·开源