Kafka简介

  1. Kafka核心要点
  • 基础概念:是分布式消息系统,有高吞吐量、可扩展等特性。包含Producer、Consumer等多种角色,消息按Topic分类存储,支持两种消息队列模式。

  • 安装与配置:安装前需准备JDK和Zookeeper,下载解压后修改配置文件,分发安装包到集群节点,配置环境变量后可启动。

  • 命令行操作:可进行Topic创建、查看、删除,数据生产与消费等操作。

  • 架构原理:消息以Topic分类,Partition对应log文件存储数据,通过分片和索引提升效率。生产者有分区策略和可靠性保证机制,消费者采用拉模式,有分区分配和offset维护策略。

  • 组件整合:与Flume整合可实现数据监控传输,与SparkStreaming整合需导包并进行代码配置,还可利用Redis维护偏移量。

  1. Spark Core部署关键
  • Yarn模式部署:解压缩并重命名文件,修改Hadoop和Spark配置文件,启动HDFS和Yarn集群后提交测试应用,配置历史服务可记录任务运行情况。

  • Windows模式部署:解压到指定路径,执行bin目录下的spark-shell.cmd启动本地环境,在命令行执行代码指令进行操作。

相关推荐
AutoMQ1 小时前
重磅发布|AutoMQ v1.6.0 开源版:Kafka 成本直降 17 倍,原生支持 Strimzi 与 Iceberg
云原生·kafka
吹晚风吧11 小时前
从0开始了解kafka《第二篇 kafka的安装、管理和配置》
kafka·kafka配置
Jabes.yang11 小时前
Java面试场景:从Spring Web到Kafka的音视频应用挑战
大数据·spring boot·kafka·spring security·java面试·spring webflux
板凳坐着晒太阳12 小时前
Flink-Kafka 连接器的 Checkpoint 与 Offset 管理机制
flink·kafka·offset·checkpoint
喵桑..12 小时前
kafka源码阅读
分布式·kafka
数智顾问21 小时前
破解 Shuffle 阻塞:Spark RDD 宽窄依赖在实时特征工程中的实战与未来
大数据·分布式·spark
JAVA学习通1 天前
Kafka在美团数据平台的实践
分布式·kafka
想ai抽1 天前
吃透大数据算法-算法地图(备用)
大数据·数据库·spark
一个java开发1 天前
spark热点key导致的数据倾斜复现和加盐处理
大数据·spark