离线数仓中,为什么用两个flume,一个kafka

  1. 实时数仓中,为什么没有零点漂移问题?
    1. 因为flink直接取的事件时间
  2. 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
    1. 因为需要削峰填谷
  3. 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
    1. 不行
    2. kafka可以削峰填谷
    3. 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
相关推荐
阿里云大数据AI技术5 分钟前
云栖实录 | 驶入智驾深水区:广汽的“数据突围“之路
大数据·人工智能
B站_计算机毕业设计之家16 分钟前
python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅
大数据·hadoop·python·金融·spark·股票·推荐算法
腾讯云开发者1 小时前
太古可口可乐的数智跃迁:用 AI 重构快消渠道的“最后一公里”
大数据
GIS数据转换器1 小时前
2025无人机在农业生态中的应用实践
大数据·网络·人工智能·安全·无人机
武子康2 小时前
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法
大数据·后端·flink
Lion Long2 小时前
PB级数据洪流下的抉择:从大数据架构师视角,深度解析时序数据库选型与性能优化(聚焦Apache IoTDB)
大数据·性能优化·apache·时序数据库·iotdb
Lx3523 小时前
Flink背压机制:原理与调优策略
大数据
Lx3523 小时前
Flink容错机制:Checkpoint和Savepoint深入解析
大数据
QQ5416451213 小时前
【小增长电商软件分享】微信私域淘宝电商补单/做基础销量:如何有效控制粉丝错货、复购、订单插旗及客服转账返款等常见痛点|粉丝订单管理|电商鱼塘运营方案
大数据·电商私域粉丝管理·电商私域运营系统解决方案·粉丝订单关系系统
字节跳动数据平台4 小时前
多模态数据湖技术深化,Data Agent新能力发布!“认知”将决定企业上限
大数据