Apache StreamPark系列教程第一篇——安装和体验

一、StreamPark介绍

实时即未来,在实时处理流域 Apache SparkApache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 ------ StreamPark, 项目的初衷是 ------ 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scalajava两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案

框架介绍 | Apache StreamPark (incubating)

二、安装快速体验

官网提供了jar包安装和docker安装,本文先简单使用docker 安装来快速体验StreamPark

首先机器上需要安装docker和docker compose,可以先参考下官网下载相关文件

Docker 快速使用教程 | Apache StreamPark (incubating)

默认是h2数据库,如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)

确保Flink和StreamPark都能访问正常,需要配置Flink Home信息

Flink Home路径填写:/StreamPark/flink/flink14.5/ 其他不用修改参考上图

集群配置信息

地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图

修改Application里面自带的Flink SQL demo 任务,即可成功运行

修改完成之后点击release(发布作业)然后start(启动作业),任务即可启动成功。

备注:Flink SQL demo会运行一段时间之后自动结束,因为代码里面设置自动生成数据是增量数据,如果想任务一直运行

复制代码
去掉自增设置同时改为最小和最大值成为随机数
'fields.f_sequence.min'='1',
'fields.f_sequence.max'='500',

这样job就能一直运行起来 ,而不会运行一段时间就停止了。

相关推荐
元宇宙时间3 分钟前
数字人民币助力亚太经合新金融秩序——构建亚太数字经济与区域金融协同的关键基础设施
大数据·人工智能·金融
百***78754 分钟前
【保姆级教程】GPT-5.1极速接入指南:3步上手多模态AI能力
大数据·python·gpt·opencv
尺度商业17 分钟前
2025:科技投资正酣,如何答好这道题?
大数据·人工智能·科技
写代码的【黑咖啡】17 分钟前
如何设计大数据数仓中的 Code Reference
大数据
Moonbeam Community21 分钟前
谁将成为波卡Polkadot流量担当
大数据·人工智能
旺仔Sec27 分钟前
2026年河北省职业院校学生技能大赛大数据应用与服务(中职组)赛项样题
大数据
本旺27 分钟前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据·数据仓库·hive
绿算技术29 分钟前
在稀缺时代,定义“性价比”新标准
大数据·数据结构·科技·算法·硬件架构
艾莉丝努力练剑31 分钟前
【Linux进程(二)】Linux进程的诞生、管理与消亡:一份基于内核视角的完整分析
大数据·linux·运维·服务器·c++·安全·centos
HalvmånEver34 分钟前
Linux:Ext系列⽂件系统(一)
大数据·linux·运维