Flink有python的SDK入门教程

Apache Flink 确实支持 Python 开发,主要通过 PyFlink 这个模块来实现。PyFlink 允许你使用 Python 编写、提交和管理 Flink 的数据流处理和批处理任务,非常适合喜欢用 Python 进行大数据开发的人。

下面是一份详细的 PyFlink 入门教程,包括安装、环境准备、Hello World 示例和一些常见问题的解答。


环境要求:

  • Python 3.7--3.11(推荐 3.8+)
  • Java 1.8 或以上(建议 Java 11)
  • 建议使用虚拟环境,如 venvconda,以避免依赖冲突。

步骤一:安装 Java 环境(Ubuntu/Linux)

bash 复制代码
sudo apt-get update
sudo apt-get install openjdk-11-jdk

步骤二:新建 Python 虚拟环境并激活

bash 复制代码
python3 -m venv pyflink-env
source pyflink-env/bin/activate

步骤三:用 pip 安装 PyFlink

bash 复制代码
pip install apache-flink

2. 验证安装

在终端输入以下命令,确认可以正常导入和显示版本:

python 复制代码
python -c "import pyflink; print(pyflink.__version__)"

写一个简单的 WordCount 程序,熟悉基本用法。

保存为 word_count.py

python 复制代码
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.common.typeinfo import Types

env = StreamExecutionEnvironment.get_execution_environment()

# 创建数据流
text = env.from_collection(
    collection=["hello world", "hello PyFlink"],
    type_info=Types.STRING()
)

# 转换和统计单词出现次数
counts = (
    text.flat_map(lambda s: s.split(), output_type=Types.STRING())
        .map(lambda w: (w, 1), output_type=Types.TUPLE([Types.STRING(), Types.INT()])))
results = counts.key_by(lambda x: x[0]).reduce(lambda a, b: (a, a + b))

results.print()

env.execute("word_count_example")

运行:

bash 复制代码
python word_count.py

如果输出如下,表示环境和功能都正常:

text 复制代码
('hello', 2)
('world', 1)
('PyFlink', 1)

4. 常见问题排查

  • Java 环境不同步 :确保 JAVA_HOME 设置正确,且和本机 Java 版本一致。
  • 端口冲突或内存不足 :可以通过设置 env.set_parallelism(1) 降低资源需求。

5. 进阶阅读


总结:PyFlink 提供了较完善的 Python SDK 和类 PySpark 的开发体验,非常适合 Python 用户入门分布式数据流。建议按上述步骤搭建环境,亲自运行代码,加深理解。

相关推荐
程序员小假2 小时前
HTTP3 性能更好,为什么内网微服务依然多用 HTTP2?HTTP2 内网优势是什么?
java·后端
wangbing11252 小时前
踩坑:el8应用装在el9上
开发语言·后端·ruby
kyriewen113 小时前
你等的Babel编译,够喝三杯咖啡了——用Rust重写的SWC,只需眨个眼
开发语言·前端·javascript·后端·性能优化·rust·前端框架
IT_陈寒3 小时前
SpringBoot自动配置坑了我,原来要这样绕过去
前端·人工智能·后端
东方小月3 小时前
Claude Code 完整上手指南:MCP、Skills、第三方模型配置一次搞定
前端·人工智能·后端
凤山老林4 小时前
从0到1搭建企业级权限管理系统:Spring Boot + JWT + RBAC实战指南
java·spring boot·后端·权限管理·rbac
小程故事多_804 小时前
[大模型面试系列] 深度解析ReAct框架,大模型Agent的“思考+行动”底层逻辑
人工智能·react.js·面试·职场和发展·智能体
逛逛GitHub4 小时前
你的 Mac 就是一个 AI Agent,4B 模型本地操控电脑。
github
ray_liang4 小时前
吐血整理JSON-RPC2.0的原理与应用
后端
蝎子莱莱爱打怪4 小时前
Claude Code 省 Token 小妙招:RTK + Caveman 组合拳
前端·人工智能·后端