flink维度表关联

分析&回答

根据我们业务对维表数据关联的时效性要求,有以下几种解决方案:

1、实时查询维表

实时查询维表是指用户在Flink 的Map算子中直接访问外部数据库,比如用 MySQL 来进行关联,这种方式是同步方式,数据保证是最新的。最后,为了保证连接及时关闭和释放,一定要在最后的 close 方式释放连接,否则会将 MySQL 的连接数打满导致任务失败。

一般我们在查询小数据量的维表情况下才使用这种方式,并且要妥善处理连接外部系统的线程,一般还会用到线程池。

2、预加载全量数据

当我们的系统启动时,就将维度表数据全部加载到内存中,然后数据在内存中进行关联,不需要直接访问外部数据库。一旦维表数据发生更新,Flink 任务是无法感知,可以采取定时拉取维表数据

对计算节点的内存消耗很高,所以不能适用于数量很大的维度表

适用于那些实时场景不是很高,维表数据较小的场景

3、LRU 缓存(最近最少使用的数据则被淘汰)

如果维表的数据比较大,无法一次性全部加载到内存中,可以使用LRU策略加载维表数据。

利用 Flink 的 RichAsyncFunction 读取 Hbase 的数据到缓存中,我们在关联维度表时先去查询缓存,如果缓存中不存在这条数据,就利用客户端去查询 Hbase,然后插入到缓存中

4、将维表消息广播出去

复制代码
//1:初始化数据
DataSet<Integer> toBroadcast = env.fromElements(1, 2, 3)

//2:广播数据
.withBroadcastSet(toBroadcast, "broadcastSetName");

//3:获取数据
Collection<Integer> broadcastSet = getRuntimeContext().getBroadcastVariable("broadcastSetName");
复制代码

反思&扩展

flink海量数据高效去重

①基于状态后端

②基于HyperLogLog:不是精准的去重

③基于布隆过滤器(BloomFilter)

快速判断一个key是否存在于某容器,不存在就直接返回。

④基于BitMap

用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。

⑤基于外部数据库

选择使用Redis或者HBase存储数据,我们只需要设计好存储的Key即可,不需要关心Flink任务重启造成的状态丢失问题

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 喵呜面试助手 或关注 喵呜刷题 -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

相关推荐
terry6005 分钟前
2026企业级携号转网查询标准:论实时数据同步与高并发承载设计
java·大数据·人工智能·json·信息与通信·数据库架构
狒狒热知识13 分钟前
AI全链路赋能内容生产,178软文网软文发稿平台打造高质文案创作新范式
大数据
辞辞辞15 分钟前
江苏正分科技:一站式碳酸锂提锂整套解决方案,引领湿法提锂行业革新
大数据·人工智能·科技
zhuhai_xigedian33 分钟前
区块链技术加持:源网荷储系统的能源数据安全与溯源
大数据·区块链·能源
经济视野39 分钟前
朗禾品牌设计,深耕餐饮VI与空间设计,以专业实力赋能品牌成长
大数据·人工智能
IT阿瑞42 分钟前
制造业 AI Agent 实施服务商横评:2026 年企业级自动化选型全景分析
大数据·人工智能·自动化
媒介发稿小能手1 小时前
合规优化与API接口协同:2026年靠谱GEO媒介资源平台推荐清单
大数据·人工智能
知识分享小能手1 小时前
Hadoop学习教程,从入门到精通, 部署Hadoop 3.x — 知识点详解(2)
大数据·hadoop·学习
涛思数据(TDengine)1 小时前
从时序数据库到工业AI:涛思数据参编“人工智能+工业软件”评价规范,推动工业数据标准
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·工业数据库
CyberwayTech1 小时前
赛博威线上营销费用管理咨询:重构企业电商费用管理体系
大数据·人工智能·it·赛博威·营销费用管理·营销费用管理咨询