flink中如何把DB大表的配置数据加载到内存中对数据流进行增强处理

背景

在处理flink的数据流时,比如处理商品流时,一般我们从kafka中只拿到了商品id,此时我们需要把商品的其他配置信息比如品牌品类等也拿到,此时就需要关联上外部配置表来达到丰富数据流的目的,如果外部配置表很大,我们如何才能做到加载到内存中并完成丰富数据流的目的呢?

丰富数据流

有两种方式可以实现丰富数据流的效果,一种是把外部配置表所有数据加载到每个TaskManager的内存中,另一种是每个TaskManager只需要加载一部分外部配置表的数据,如下所示:

总结:

当外部配置表的数据量很大时,我们可以采用每个TaskManager加载一部分数据的方式来达到数据增强的效果,至于每个TaskManager加载多少,取决于算子并行度,并行度越高,每个TaskManager就可以加载越少的数据

相关推荐
g***2679几秒前
最新SQL Server 2022保姆级安装教程【附安装包】
数据库·性能优化
风123456789~1 小时前
【OceanBase专栏】OB背景知识
数据库·笔记·oceanbase
4***72131 小时前
【玩转全栈】----Django模板语法、请求与响应
数据库·python·django
c***42101 小时前
Django视图与URLs路由详解
数据库·django·sqlite
数据库学啊1 小时前
团队小希望运维简单,时序数据库选型有什么推荐?
运维·数据库·时序数据库
2***65632 小时前
数据库操作与数据管理——Rust 与 SQLite 的集成
数据库·rust·sqlite
V***u4532 小时前
如何查看PostgreSQL的版本
数据库·postgresql
倔强的石头_2 小时前
openGauss向量数据库:赋能智能制造的工业AI实践
数据库
口嗨农民工3 小时前
3.2 mysql客户端和服务器的启动与停止
数据库·mysql