Kafka简介

  1. Kafka核心要点
  • 基础概念:是分布式消息系统,有高吞吐量、可扩展等特性。包含Producer、Consumer等多种角色,消息按Topic分类存储,支持两种消息队列模式。

  • 安装与配置:安装前需准备JDK和Zookeeper,下载解压后修改配置文件,分发安装包到集群节点,配置环境变量后可启动。

  • 命令行操作:可进行Topic创建、查看、删除,数据生产与消费等操作。

  • 架构原理:消息以Topic分类,Partition对应log文件存储数据,通过分片和索引提升效率。生产者有分区策略和可靠性保证机制,消费者采用拉模式,有分区分配和offset维护策略。

  • 组件整合:与Flume整合可实现数据监控传输,与SparkStreaming整合需导包并进行代码配置,还可利用Redis维护偏移量。

  1. Spark Core部署关键
  • Yarn模式部署:解压缩并重命名文件,修改Hadoop和Spark配置文件,启动HDFS和Yarn集群后提交测试应用,配置历史服务可记录任务运行情况。

  • Windows模式部署:解压到指定路径,执行bin目录下的spark-shell.cmd启动本地环境,在命令行执行代码指令进行操作。

相关推荐
indexsunny20 小时前
互联网大厂Java面试实战:从Spring Boot到微服务架构的深度解析
java·spring boot·spring cloud·kafka·prometheus·security·microservices
睡醒的土豆1 天前
解决 Kafka 管理工具中文乱码问题
分布式·kafka
D愿你归来仍是少年1 天前
Apache Spark 第六章:执行计划与 DAG 调度
大数据·spark
殷紫川1 天前
击穿 Kafka 高可用核心:分区副本、ISR 机制与底层原理全链路拆解
架构·kafka
岁岁种桃花儿1 天前
Flink从入门到上天系列第二十五篇:Flink和Kafka连接时的精准一次性
大数据·flink·kafka
Hello.Reader1 天前
PySpark DataFrame 快速入门创建、查询、分组、读写、SQL 实战一篇讲透
数据库·sql·spark
七夜zippoe1 天前
消息队列选型:Kafka vs RabbitMQ vs Redis 深度对比
redis·python·kafka·消息队列·rabbitmq
LF3_1 天前
监听数据库binlog日志变化,将变动实时发送到kafka
数据库·分布式·mysql·kafka·binlog·debezium
D愿你归来仍是少年1 天前
Apache Spark 第五章:Spark SQL 与 DataFrame
大数据·spark