Apache StreamPark系列教程第一篇——安装和体验

一、StreamPark介绍

实时即未来,在实时处理流域 Apache SparkApache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 ------ StreamPark, 项目的初衷是 ------ 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scalajava两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案

框架介绍 | Apache StreamPark (incubating)

二、安装快速体验

官网提供了jar包安装和docker安装,本文先简单使用docker 安装来快速体验StreamPark

首先机器上需要安装docker和docker compose,可以先参考下官网下载相关文件

Docker 快速使用教程 | Apache StreamPark (incubating)

默认是h2数据库,如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)

确保Flink和StreamPark都能访问正常,需要配置Flink Home信息

Flink Home路径填写:/StreamPark/flink/flink14.5/ 其他不用修改参考上图

集群配置信息

地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图

修改Application里面自带的Flink SQL demo 任务,即可成功运行

修改完成之后点击release(发布作业)然后start(启动作业),任务即可启动成功。

备注:Flink SQL demo会运行一段时间之后自动结束,因为代码里面设置自动生成数据是增量数据,如果想任务一直运行

复制代码
去掉自增设置同时改为最小和最大值成为随机数
'fields.f_sequence.min'='1',
'fields.f_sequence.max'='500',

这样job就能一直运行起来 ,而不会运行一段时间就停止了。

相关推荐
wudl55661 小时前
flink sql 所有函数详细用例
大数据·sql·flink
luoganttcc2 小时前
是凯恩斯主义主导 西方的经济决策吗
大数据·人工智能·金融·哲学
武子康2 小时前
大数据-130 - Flink CEP 详解 - 捕获超时事件提取全解析:从原理到完整实战代码教程 恶意登录案例实现
大数据·后端·flink
分布式存储与RustFS2 小时前
存算一体架构的先行者:RustFS在异构计算环境下的探索与实践
大数据·人工智能·物联网·云原生·对象存储·minio·rustfs
wudl55668 小时前
Flink 1.20 flink-config.yml 配置详解
大数据·flink
华东数交8 小时前
企业与国有数据资产:入表全流程管理及资产化闭环理论解析
大数据·人工智能
B站_计算机毕业设计之家13 小时前
计算机毕业设计:Python农业数据可视化分析系统 气象数据 农业生产 粮食数据 播种数据 爬虫 Django框架 天气数据 降水量(源码+文档)✅
大数据·爬虫·python·机器学习·信息可视化·课程设计·农业
Apache Flink15 小时前
Flink Agents 0.1.0 发布公告
大数据·flink
潘达斯奈基~16 小时前
在使用spark的applyInPandas方法过程中,遇到类型冲突问题如何解决
大数据·笔记
火星资讯17 小时前
腾多多数字零售模式:从成本转嫁到全生态共赢的破局实践
大数据