Flink有python的SDK入门教程

Apache Flink 确实支持 Python 开发,主要通过 PyFlink 这个模块来实现。PyFlink 允许你使用 Python 编写、提交和管理 Flink 的数据流处理和批处理任务,非常适合喜欢用 Python 进行大数据开发的人。

下面是一份详细的 PyFlink 入门教程,包括安装、环境准备、Hello World 示例和一些常见问题的解答。


环境要求:

  • Python 3.7--3.11(推荐 3.8+)
  • Java 1.8 或以上(建议 Java 11)
  • 建议使用虚拟环境,如 venvconda,以避免依赖冲突。

步骤一:安装 Java 环境(Ubuntu/Linux)

bash 复制代码
sudo apt-get update
sudo apt-get install openjdk-11-jdk

步骤二:新建 Python 虚拟环境并激活

bash 复制代码
python3 -m venv pyflink-env
source pyflink-env/bin/activate

步骤三:用 pip 安装 PyFlink

bash 复制代码
pip install apache-flink

2. 验证安装

在终端输入以下命令,确认可以正常导入和显示版本:

python 复制代码
python -c "import pyflink; print(pyflink.__version__)"

写一个简单的 WordCount 程序,熟悉基本用法。

保存为 word_count.py

python 复制代码
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.common.typeinfo import Types

env = StreamExecutionEnvironment.get_execution_environment()

# 创建数据流
text = env.from_collection(
    collection=["hello world", "hello PyFlink"],
    type_info=Types.STRING()
)

# 转换和统计单词出现次数
counts = (
    text.flat_map(lambda s: s.split(), output_type=Types.STRING())
        .map(lambda w: (w, 1), output_type=Types.TUPLE([Types.STRING(), Types.INT()])))
results = counts.key_by(lambda x: x[0]).reduce(lambda a, b: (a, a + b))

results.print()

env.execute("word_count_example")

运行:

bash 复制代码
python word_count.py

如果输出如下,表示环境和功能都正常:

text 复制代码
('hello', 2)
('world', 1)
('PyFlink', 1)

4. 常见问题排查

  • Java 环境不同步 :确保 JAVA_HOME 设置正确,且和本机 Java 版本一致。
  • 端口冲突或内存不足 :可以通过设置 env.set_parallelism(1) 降低资源需求。

5. 进阶阅读


总结:PyFlink 提供了较完善的 Python SDK 和类 PySpark 的开发体验,非常适合 Python 用户入门分布式数据流。建议按上述步骤搭建环境,亲自运行代码,加深理解。

相关推荐
小乌龟不会飞35 分钟前
【SpringBoot】统一功能处理
java·spring boot·后端
刘小吉40 分钟前
java net 配置局域网受信任的https
后端
考虑考虑1 小时前
JPA中的EntityGraph
spring boot·后端·spring
uhakadotcom1 小时前
将next.js的分享到twitter.com之中时,如何更新分享卡片上的图片?
前端·javascript·面试
coolflyr_reg1 小时前
禅道集成Firebase PHP-JWT
后端
似水流年流不尽思念1 小时前
常见的排序算法有哪些?它们的平均时间复杂度是多少?
后端·算法
掘金安东尼1 小时前
2分钟创建一个“不依赖任何外部库”的粒子动画背景
前端·面试·canvas
孟永峰_Java2 小时前
MySQL 组合IN查询:你的索引为什么罢工了?
后端
ruokkk2 小时前
一个困扰我多年的Session超时Bug,被我的新AI搭档半天搞定了
javascript·后端·架构
楽码2 小时前
端到端应用Hmac加密
服务器·后端·算法