PiflowX新增Apache Beam引擎支持

参考资料:

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)

在之前的文章中有介绍过,PiflowX是支持spark和flink计算引擎,其架构图如下所示:

在piflow高度抽象的流水线组件的支持下,我们可以很轻松的扩展计算引擎的支持,比如spark和flink,当然还可以是apache beam。

什么是Apache Beam

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)

大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车,可惜 Google 在发布论文后并没有公布其源码,但是 Apache 开源社区蓬勃发展,先后出现了 Hadoop,Spark,Apache Flink 等产品,而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。这次 Google 没有发一篇论文后便销声匿迹,2016年2月 Google 宣布 Google DataFlow 贡献给 Apache 基金会孵化,成为 Apache 的一个顶级开源项目。然后就出现了 Apache Beam,这次不它不是发论文发出来的,而是谷歌开源出来的。2017年5月17日 发布了第一个稳定版本2.0。

Apache Beam 的定义如上图,其定位是做一个统一前后端的模型。其中,管道处理和逻辑处理是自己的,数据源和执行引擎则来自第三方。那么,Apache Beam 有哪些好处呢?

① 统一数据源,现在已经接入的 java 语言的数据源有34种,正在接入的有7种。Python 的13种。这是部分的数据源 logo,还有一些未写上的,以及正在集成的数据源。基本涵盖了整个 IT 界每个时代的数据源,数据库。

② 统一编程模型,Beam 统一了流和批,抽象出统一的 API 接口。

③ 统一大数据引擎,现在支持性最好的是 flink,spark,dataflow 还有其它的大数据引擎接入进来。

等等。。。。。。

PiflowX新架构

PiflowX可同时支持spark、flink和beam。借助beam的统一性,甚至可以一套逻辑同时运行在多种计算引擎下。

Beam引擎执行演示

登录页

首页

流水线首页

创建beam类型任务

设计beam类型流水线

PiflowX新增Beam计算引擎

相关推荐
AI营销实验室1 分钟前
原圈科技AI CRM系统创新模式深度解析,助力工业B2B企业转型
大数据·人工智能·科技
武子康6 分钟前
大数据-189 Nginx JSON 日志接入 ELK:ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建
大数据·后端·elasticsearch
Fabarta技术团队11 分钟前
枫清科技受邀参加CMIS 2025第六届中国医药华北数智峰会
大数据·人工智能·科技
数字化顾问18 分钟前
(97页PPT)驱动水务智慧(附下载方式)
大数据
过期的秋刀鱼!21 分钟前
Excel-数据分析开发心得(工具PQ,PP)与开发经验
大数据·数据分析·excel·模型搭建·数据优化·powerquery·powerpivot
飞飞传输34 分钟前
安全隔离网闸厂家怎么选?聚焦核心指标,筑牢网络边界安全防线
大数据·运维·安全
你好~每一天34 分钟前
数据分析专员:当传统汽车销售融入AI智能,如何驱动业绩新增长
大数据·数据结构·人工智能·学习·数据分析·汽车·高性价比
IT·小灰灰43 分钟前
AI算力租赁完全指南(一):选卡篇——从入门到精通的GPU选购
大数据·人工智能·数据分析·云计算·音视频·gpu算力
XianjianAI1 小时前
先见AI新功能深度介绍:以可信AI重构研报解读,数据驱动决策快人一步
大数据·人工智能·信息可视化·数据分析·需求分析
毕设源码-邱学长1 小时前
【开题答辩全过程】以 基于大数据技术的医疗数据管理系统为例,包含答辩的问题和答案
大数据