离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
小堃学编程1 分钟前
【项目实战】基于protobuf的发布订阅式消息队列(1)—— 准备工作
java·大数据·开发语言
无忧智库5 分钟前
破局与重构:大型集团财务共享业财一体化的数字基因革命(PPT)
大数据·架构
zxm851323 分钟前
UV使用及UV与Anaconda的区别
大数据·学习·机器学习·uv
贺小涛28 分钟前
Git代码提交规范和踩坑排水明沟
大数据·git·elasticsearch
&&月弥29 分钟前
三大开源消息队列(Kafka、RabbitMQ、RocketMQ)使用教程
kafka·开源·rabbitmq
T062051443 分钟前
【数据集】285个地级市邻接矩阵、经济地理矩阵等8个矩阵数据(2003-2023年)
大数据
逸Y 仙X1 小时前
文章十一:ElasticSearch Dynamic Template详解
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
藦卡机器人10 小时前
中国工业机器人发展现状
大数据·人工智能·机器人
百锦再11 小时前
Java 并发编程进阶,从线程池、锁、AQS 到并发容器与性能调优全解析
java·开发语言·jvm·spring·kafka·tomcat·maven
Simon_lca11 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售