Apache StreamPark系列教程第一篇——安装和体验

一、StreamPark介绍

实时即未来,在实时处理流域 Apache SparkApache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 ------ StreamPark, 项目的初衷是 ------ 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scalajava两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案

框架介绍 | Apache StreamPark (incubating)

二、安装快速体验

官网提供了jar包安装和docker安装,本文先简单使用docker 安装来快速体验StreamPark

首先机器上需要安装docker和docker compose,可以先参考下官网下载相关文件

Docker 快速使用教程 | Apache StreamPark (incubating)

默认是h2数据库,如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)

确保Flink和StreamPark都能访问正常,需要配置Flink Home信息

Flink Home路径填写:/StreamPark/flink/flink14.5/ 其他不用修改参考上图

集群配置信息

地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图

修改Application里面自带的Flink SQL demo 任务,即可成功运行

修改完成之后点击release(发布作业)然后start(启动作业),任务即可启动成功。

备注:Flink SQL demo会运行一段时间之后自动结束,因为代码里面设置自动生成数据是增量数据,如果想任务一直运行

复制代码
去掉自增设置同时改为最小和最大值成为随机数
'fields.f_sequence.min'='1',
'fields.f_sequence.max'='500',

这样job就能一直运行起来 ,而不会运行一段时间就停止了。

相关推荐
AC赳赳老秦14 分钟前
OpenClaw批量任务队列优化:解决任务堆积、执行缓慢、优先级混乱问题
java·大数据·数据库·c++·自动化·php·openclaw
keke.shengfengpolang21 分钟前
2026出纳职业能力提升指南:从“收付款”到“洞察资金流”
大数据·服务器·人工智能
TDengine (老段)23 分钟前
TDengine Compaction 合并策略 — STT 整理、文件合并与后台调度
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
Volunteer Technology1 小时前
Flink编程模型与API(二)
大数据·数据库·flink
团象科技1 小时前
企业出海本地化攻坚阶段 云端大模型微调的跨区域适配实践观察
大数据·人工智能
罗小罗同学1 小时前
Nat Med发表SPARK智能体框架,可以自主思考、提出假设、设计实验并验证结果,让AI也能主动发现肿瘤生物学规律
大数据·人工智能·spark·医学图像处理
卷毛迷你猪1 小时前
快速实验篇(A3)基于 Hive 的气象数据数仓构建与干旱指标初步分析
大数据·hadoop·分布式
HannahTx1 小时前
解锁客户资料管理新姿势:便捷查找不再是梦
大数据
Nile2 小时前
解密Palantir系列一:3. Palantir 是谁
大数据·人工智能·ai
云天AI实战派2 小时前
AI 智能体总是跑偏怎么办?ChatGPT/API/Agent 故障排查指南与全流程修复手册
大数据·人工智能·chatgpt·agent