flink中如何把DB大表的配置数据加载到内存中对数据流进行增强处理

背景

在处理flink的数据流时,比如处理商品流时,一般我们从kafka中只拿到了商品id,此时我们需要把商品的其他配置信息比如品牌品类等也拿到,此时就需要关联上外部配置表来达到丰富数据流的目的,如果外部配置表很大,我们如何才能做到加载到内存中并完成丰富数据流的目的呢?

丰富数据流

有两种方式可以实现丰富数据流的效果,一种是把外部配置表所有数据加载到每个TaskManager的内存中,另一种是每个TaskManager只需要加载一部分外部配置表的数据,如下所示:

总结:

当外部配置表的数据量很大时,我们可以采用每个TaskManager加载一部分数据的方式来达到数据增强的效果,至于每个TaskManager加载多少,取决于算子并行度,并行度越高,每个TaskManager就可以加载越少的数据

相关推荐
广州腾科助你拿下华为认证16 分钟前
华为考试:HCIE数通考试难度分析
大数据·华为
l1t1 小时前
利用DeepSeek实现服务器客户端模式的DuckDB原型
服务器·c语言·数据库·人工智能·postgresql·协议·duckdb
在未来等你2 小时前
Elasticsearch面试精讲 Day 17:查询性能调优实践
大数据·分布式·elasticsearch·搜索引擎·面试
大数据CLUB5 小时前
基于spark的澳洲光伏发电站选址预测
大数据·hadoop·分布式·数据分析·spark·数据开发
MarkHard1235 小时前
如何利用redis使用一个滑动窗口限流
数据库·redis·缓存
ratbag6720136 小时前
当环保遇上大数据:生态环境大数据技术专业的课程侧重哪些领域?
大数据
island13147 小时前
【Redis#10】渐进式遍历 | 数据库管理 | redis_cli | RES
数据库·redis·bootstrap
心想事成的幸运大王7 小时前
Redis的过期策略
数据库·redis·缓存
倔强的石头_7 小时前
CentOS 上安装KingbaseES(ISO包)详细教程
数据库
计算机编程小央姐7 小时前
跟上大数据时代步伐:食物营养数据可视化分析系统技术前沿解析
大数据·hadoop·信息可视化·spark·django·课程设计·食物