离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
小宋102112 分钟前
高性能分布式搜索引擎Elasticsearch详解
大数据·elasticsearch·搜索引擎
DolphinScheduler社区20 分钟前
中电信翼康基于Apache Dolphinscheduler重构“星海·济世医疗数据中台”实践经验分享
大数据
sunxunyong23 分钟前
Linux 删除文件不释放空间问题处理
大数据·linux·运维·服务器
isNotNullX7 小时前
一文解读OLAP的工具和应用软件
大数据·数据库·etl
不是笨小孩i9 小时前
Git常用指令
大数据·git·elasticsearch
howard20059 小时前
大数据概念与价值
大数据·特征·概念·价值
happycao1239 小时前
记一次kafka消息丢失问题排查
kafka
知识分享小能手10 小时前
mysql学习教程,从入门到精通,SQL DISTINCT 子句 (16)
大数据·开发语言·sql·学习·mysql·数据分析·数据库开发
紫钺-高山仰止10 小时前
【脑机接口】脑机接口性能的电压波形的尖峰分类和阈值比较
大数据·分类·数据挖掘
喜欢猪猪10 小时前
Kafka是如何保证数据的安全性、可靠性和分区的
分布式·kafka