离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
Java 第一深情3 分钟前
Flink数据源的读写介入体系
大数据·flink
天冬忘忧1 小时前
Kafka 消费者全面解析:原理、消费者 API 与Offset 位移
大数据·kafka
jlting1951 小时前
《智慧教育实时数据分析推荐项目》详细分析
大数据·redis·sql·kafka·database
青云交1 小时前
大数据新视界 -- Hive 数据仓库:架构深度剖析与核心组件详解(上)(1 / 30)
大数据
EasyNVR2 小时前
NVR管理平台EasyNVR多品牌NVR管理工具的流媒体视频融合与汇聚管理方案
大数据·网络·安全·音视频·监控·视频监控
java1234_小锋2 小时前
在Elasticsearch中,是怎么根据一个词找到对应的倒排索引的?
大数据·elasticsearch·搜索引擎
油头少年_w3 小时前
Hadoop进阶原理(HDFS、MR、YARN的原理)
大数据·hadoop·分布式
大数据编程之光4 小时前
基于 Flink 的车辆超速监测与数据存储的小实战
大数据·flink·linq
Mephisto.java6 小时前
【大数据学习 | Spark-Core】广播变量和累加器
大数据·学习·spark
Mephisto.java7 小时前
【大数据学习 | Spark-Core】详解分区个数
大数据·sql·oracle·spark·json·database