离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
only_Klein2 小时前
K8S部署ELK(二):部署Kafka消息队列
elk·kafka·kubernetes
Elastic 中国社区官方博客5 小时前
Elastic 9.1/8.19:默认启用 BBQ,ES|QL 支持跨集群搜索(CCS)正式版,JOINS 正式版,集成 Azure AI Foundry
大数据·elasticsearch·搜索引擎·全文检索·azure·elastic
哈__5 小时前
PromptPilot搭配Doubao-seed-1.6:定制你需要的AI提示prompt
大数据·人工智能·promptpilot
鸿乃江边鸟6 小时前
Starrocks中的 Query Profile以及explain analyze及trace命令中的区别
大数据·starrocks·sql
SamtecChina20238 小时前
应用科普 | 漫谈6G通信的未来
大数据·网络·人工智能·科技
lingling00910 小时前
光伏清洗机器人是什么?艾利特协作机器人如何重塑新能源运维效率
大数据·运维·人工智能
2501_9247319911 小时前
智慧能源场景设备缺陷漏检率↓76%:陌讯多模态融合检测方案实战解析
大数据·人工智能·算法·目标检测·计算机视觉·视觉检测
黄雪超16 小时前
Kafka——怎么重设消费者组位移?
大数据·分布式·kafka
不辉放弃16 小时前
pyspark中的kafka的读和写案例操作
大数据·数据库·pyspark·大数据开发