- 实时数仓中,为什么没有零点漂移问题?
- 因为flink直接取的事件时间
- 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
- 因为需要削峰填谷
- 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
- 不行
- kafka可以削峰填谷
- 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
离线数仓中,为什么用两个flume,一个kafka
青云游子2023-08-03 12:44
相关推荐
小宋102112 分钟前
高性能分布式搜索引擎Elasticsearch详解DolphinScheduler社区20 分钟前
中电信翼康基于Apache Dolphinscheduler重构“星海·济世医疗数据中台”实践经验分享sunxunyong23 分钟前
Linux 删除文件不释放空间问题处理isNotNullX7 小时前
一文解读OLAP的工具和应用软件不是笨小孩i9 小时前
Git常用指令howard20059 小时前
大数据概念与价值happycao1239 小时前
记一次kafka消息丢失问题排查知识分享小能手10 小时前
mysql学习教程,从入门到精通,SQL DISTINCT 子句 (16)紫钺-高山仰止10 小时前
【脑机接口】脑机接口性能的电压波形的尖峰分类和阈值比较喜欢猪猪10 小时前
Kafka是如何保证数据的安全性、可靠性和分区的