flink中如何把DB大表的配置数据加载到内存中对数据流进行增强处理

背景

在处理flink的数据流时,比如处理商品流时,一般我们从kafka中只拿到了商品id,此时我们需要把商品的其他配置信息比如品牌品类等也拿到,此时就需要关联上外部配置表来达到丰富数据流的目的,如果外部配置表很大,我们如何才能做到加载到内存中并完成丰富数据流的目的呢?

丰富数据流

有两种方式可以实现丰富数据流的效果,一种是把外部配置表所有数据加载到每个TaskManager的内存中,另一种是每个TaskManager只需要加载一部分外部配置表的数据,如下所示:

总结:

当外部配置表的数据量很大时,我们可以采用每个TaskManager加载一部分数据的方式来达到数据增强的效果,至于每个TaskManager加载多少,取决于算子并行度,并行度越高,每个TaskManager就可以加载越少的数据

相关推荐
程序新视界1 分钟前
什么是OLTP ,MySQL是如何支持OLTP的?
数据库·后端·mysql
pen-ai21 分钟前
【数据工程】14. Stream Data Processing
数据库·oracle
倔强的石头10629 分钟前
【金仓数据库】ksql 指南(三) —— 创建与管理表空间和模式
数据库·金仓数据库
金仓拾光集31 分钟前
__金仓数据库平替MongoDB:银行存款系统国产化实践__
数据库·mongodb
流烟默33 分钟前
MongoDB入门指南基础篇
数据库·mongodb
金仓拾光集37 分钟前
_金仓数据库平替MongoDB实战:制造业生产进度管理的国产化升级之路
数据库·mongodb
涛思数据(TDengine)1 小时前
杨凌美畅用 TDengine 时序数据库,支撑 500 条产线 2 年历史数据追溯
大数据·时序数据库·tdengine
熊文豪1 小时前
时序数据库选型指南:从大数据视角看高效存储与分析
大数据·数据库·时序数据库
yumgpkpm1 小时前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)POC报告
大数据·hive·hadoop·python·elasticsearch·hbase·cloudera
Lisonseekpan1 小时前
为什么要避免使用 `SELECT *`?
java·数据库·后端·sql·mysql·oracle