- 实时数仓中,为什么没有零点漂移问题?
- 因为flink直接取的事件时间
- 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
- 因为需要削峰填谷
- 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
- 不行
- kafka可以削峰填谷
- 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
离线数仓中,为什么用两个flume,一个kafka
青云游子2023-08-03 12:44
相关推荐
TDengine (老段)8 分钟前
TDengine 支持的平台汇总火龙谷10 分钟前
【hadoop】相关集群开启命令livemetee2 小时前
一个完整的日志收集方案:Elasticsearch + Logstash + Kibana+Filebeat (二)网安INF3 小时前
CVE-2023-25194源码分析与漏洞复现(Kafka JNDI注入)TDengine (老段)3 小时前
TDengine 开发指南——无模式写入TDengine (老段)3 小时前
TDengine 在电力行业如何使用 AI ?盛寒4 小时前
自然语言处理 目录篇武子康5 小时前
大数据-276 Spark MLib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树武子康5 小时前
大数据-277 Spark MLib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现咸鱼求放生13 小时前
es在Linux安装