离线数仓中，为什么用两个flume，一个kafka

青云游子2023-08-03 12:44

实时数仓中，为什么没有零点漂移问题？
1. 因为flink直接取的事件时间
用kafka是为了速度快，并且数据不丢，那为什么既用了kafkachannel，也用了kafka，而不只用kafkachannel呢？
1. 因为需要削峰填谷
离线数仓中，为什么用两个flume，一个kafka，直接用taildirsource,kafkachannel,hdfssink不行吗？
1. 不行
2. kafka可以削峰填谷
3. 如果用kafkachannel，那么数据写到kafka，只剩event，没有header，无法解决零点漂移问题，而多加一个flume，可以在kafkasource中添加拦截器。