离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
简单的心13 小时前
window部署虚拟机VirtualBox来部署flink
大数据·windows·flink
碳基学AI4 小时前
北京大学DeepSeek内部研讨系列:AI在新媒体运营中的应用与挑战|122页PPT下载方法
大数据·人工智能·python·算法·ai·新媒体运营·产品运营
viperrrrrrrrrr74 小时前
大数据学习(105)-Hbase
大数据·学习·hbase
SeaTunnel5 小时前
【同步教程】基于Apache SeaTunnel从MySQL同步到MySQL——Demo方舟计划
大数据·人工智能·apache·etl
老友@7 小时前
Elasticsearch 全面解析
大数据·elasticsearch·搜索引擎
Gvemis⁹8 小时前
Spark Core(二)
大数据·分布式·spark
AWS官方合作商9 小时前
AWS Bedrock:开启企业级生成式AI的钥匙【深度解析】
大数据·人工智能·aws
Flink_China10 小时前
Lalamove基于Flink实时湖仓演进之路
大数据·flink
阿里云大数据AI技术10 小时前
DataWorks智能体Agent发布!基于MCP实现数据开发与治理自动化运行
大数据·mcp