flink中如何把DB大表的配置数据加载到内存中对数据流进行增强处理

背景

在处理flink的数据流时,比如处理商品流时,一般我们从kafka中只拿到了商品id,此时我们需要把商品的其他配置信息比如品牌品类等也拿到,此时就需要关联上外部配置表来达到丰富数据流的目的,如果外部配置表很大,我们如何才能做到加载到内存中并完成丰富数据流的目的呢?

丰富数据流

有两种方式可以实现丰富数据流的效果,一种是把外部配置表所有数据加载到每个TaskManager的内存中,另一种是每个TaskManager只需要加载一部分外部配置表的数据,如下所示:

总结:

当外部配置表的数据量很大时,我们可以采用每个TaskManager加载一部分数据的方式来达到数据增强的效果,至于每个TaskManager加载多少,取决于算子并行度,并行度越高,每个TaskManager就可以加载越少的数据

相关推荐
jiunian_cn1 小时前
【Redis】hash数据类型相关指令
数据库·redis·哈希算法
冉冰学姐1 小时前
SSM在线影评网站平台82ap4(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm框架·在线影评平台·影片分类
Guheyunyi1 小时前
智能守护:视频安全监测系统的演进与未来
大数据·人工智能·科技·安全·信息可视化
知识分享小能手2 小时前
SQL Server 2019入门学习教程,从入门到精通,SQL Server 2019数据库的操作(2)
数据库·学习·sqlserver
发哥来了2 小时前
主流AI视频生成商用方案选型评测:五大核心维度对比分析
大数据·人工智能
数研小生3 小时前
做京东评论分析系统11年,京东评论数据接口解析
大数据
踩坑小念3 小时前
秒杀场景下如何处理redis扣除状态不一致问题
数据库·redis·分布式·缓存·秒杀
金融小师妹3 小时前
基于LSTM-GARCH-EVT混合模型的贵金属极端波动解析:黄金白银双双反弹的逻辑验证
大数据·人工智能·深度学习·机器学习
萧曵 丶4 小时前
MySQL 语句书写顺序与执行顺序对比速记表
数据库·mysql
Wiktok5 小时前
MySQL的常用数据类型
数据库·mysql