【Kafka笔记】(一)认识 Kafka

一、什么是 Kafka

Kafka 是一款分布式、高吞吐、低延迟、持久化的消息队列/流处理平台。通俗的讲Kafka 就是一个"实时数据中转站+数据蓄水池"

  • 上游业务/设备产生数据 → 发给 Kafka 存起来

  • 下游 Flink、服务、数仓 → 从 Kafka 实时拉取数据计算

二、为什么大数据实时开发必须用 Kafka

如果没有 Kafka:

  • 业务系统直接调用计算服务,流量暴涨会直接打崩服务

  • 数据瞬时峰值过高,程序处理不过来导致丢失数据

  • 无法解耦生产端和消费端

有了 Kafka:

  • 削峰填谷:瞬时海量数据先缓存,下游慢慢消费

  • 解耦:生产者只管发,消费者只管读,互不影响

  • 持久化:数据落盘,不会丢失,支持回溯消费

  • 高吞吐:支撑百万级 QPS,车联网、日志、实时数据首选

三、应用场景

1. 实时数据传输

车联网、物联网设备实时上报数据

2. 实时计算

配合 Flink 做实时清洗、统计、告警

3. 日志收集

系统日志、操作日志实时采集

4. 业务解耦

订单、支付、消息推送异步处理

5. 数据同步

实时同步数据库、数仓数据

相关推荐
Fuyo_11191 小时前
C++中的活字印刷术——模板·初阶
开发语言·c++·笔记
大明者省1 小时前
Ubuntu22.04 宝塔面板与 XFCE 远程桌面端口兼容性分析
运维·服务器·数据库·笔记
哆哆啦ss2 小时前
使用 Obsidian + GitHub Actions + GitHub Pages 搭建内容发布流
笔记
清平乐的技术专栏2 小时前
【Kafka笔记】(四)Kafka 三种消费模式
笔记·分布式·kafka
LuminousCPP2 小时前
数据结构 - 线性表第三篇:基于顺序表实现 C 语言通讯录(基础功能篇)
c语言·数据结构·经验分享·笔记·算法
Szime2 小时前
深智微华润微代理端整理:FS32K144国产化替代三年BCM选型验证避坑笔记
笔记
几司2 小时前
OpenISP 模块拆解 · 第1讲:坏点校正 (DPC)
笔记·学习·isp
问心无愧05132 小时前
ctf show web 入门155
笔记
Afans_fire2 小时前
全媒体运营:从流量到转化的实战策略
笔记·百度·抖音·小红书运营·巨量引擎