- 实时数仓中,为什么没有零点漂移问题?
- 因为flink直接取的事件时间
- 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
- 因为需要削峰填谷
- 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
- 不行
- kafka可以削峰填谷
- 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
离线数仓中,为什么用两个flume,一个kafka
青云游子2023-08-03 12:44
相关推荐
阿里云大数据AI技术5 分钟前
云栖实录 | 驶入智驾深水区:广汽的“数据突围“之路B站_计算机毕业设计之家16 分钟前
python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅腾讯云开发者1 小时前
太古可口可乐的数智跃迁:用 AI 重构快消渠道的“最后一公里”GIS数据转换器1 小时前
2025无人机在农业生态中的应用实践武子康2 小时前
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法Lion Long2 小时前
PB级数据洪流下的抉择:从大数据架构师视角,深度解析时序数据库选型与性能优化(聚焦Apache IoTDB)Lx3523 小时前
Flink背压机制:原理与调优策略Lx3523 小时前
Flink容错机制:Checkpoint和Savepoint深入解析QQ5416451213 小时前
【小增长电商软件分享】微信私域淘宝电商补单/做基础销量:如何有效控制粉丝错货、复购、订单插旗及客服转账返款等常见痛点|粉丝订单管理|电商鱼塘运营方案字节跳动数据平台4 小时前
多模态数据湖技术深化,Data Agent新能力发布!“认知”将决定企业上限