- 实时数仓中,为什么没有零点漂移问题?
- 因为flink直接取的事件时间
- 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
- 因为需要削峰填谷
- 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
- 不行
- kafka可以削峰填谷
- 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
离线数仓中,为什么用两个flume,一个kafka
青云游子2023-08-03 12:44
相关推荐
得物技术2 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流久美子2 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程大树883 天前
金刚石散热越强,管路越先见顶大志哥1233 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)果丁智能3 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践ApacheSeaTunnel3 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步weixin_397574093 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战极光代码工作室3 天前
基于数据仓库的电商数据分析平台秋名山码民3 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进m0_380167143 天前
面向开发者的Top10加密货币数据API(2026年最新)