Apache StreamPark系列教程第一篇——安装和体验

一、StreamPark介绍

实时即未来,在实时处理流域 Apache SparkApache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 ------ StreamPark, 项目的初衷是 ------ 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scalajava两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案

框架介绍 | Apache StreamPark (incubating)

二、安装快速体验

官网提供了jar包安装和docker安装,本文先简单使用docker 安装来快速体验StreamPark

首先机器上需要安装docker和docker compose,可以先参考下官网下载相关文件

Docker 快速使用教程 | Apache StreamPark (incubating)

默认是h2数据库,如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)

确保Flink和StreamPark都能访问正常,需要配置Flink Home信息

Flink Home路径填写:/StreamPark/flink/flink14.5/ 其他不用修改参考上图

集群配置信息

地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图

修改Application里面自带的Flink SQL demo 任务,即可成功运行

修改完成之后点击release(发布作业)然后start(启动作业),任务即可启动成功。

备注:Flink SQL demo会运行一段时间之后自动结束,因为代码里面设置自动生成数据是增量数据,如果想任务一直运行

复制代码
去掉自增设置同时改为最小和最大值成为随机数
'fields.f_sequence.min'='1',
'fields.f_sequence.max'='500',

这样job就能一直运行起来 ,而不会运行一段时间就停止了。

相关推荐
大大大大晴天15 小时前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术16 小时前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB1 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天5 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB5 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI5 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI5 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI5 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天6 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术10 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程