Kafka简介

  1. Kafka核心要点
  • 基础概念:是分布式消息系统,有高吞吐量、可扩展等特性。包含Producer、Consumer等多种角色,消息按Topic分类存储,支持两种消息队列模式。

  • 安装与配置:安装前需准备JDK和Zookeeper,下载解压后修改配置文件,分发安装包到集群节点,配置环境变量后可启动。

  • 命令行操作:可进行Topic创建、查看、删除,数据生产与消费等操作。

  • 架构原理:消息以Topic分类,Partition对应log文件存储数据,通过分片和索引提升效率。生产者有分区策略和可靠性保证机制,消费者采用拉模式,有分区分配和offset维护策略。

  • 组件整合:与Flume整合可实现数据监控传输,与SparkStreaming整合需导包并进行代码配置,还可利用Redis维护偏移量。

  1. Spark Core部署关键
  • Yarn模式部署:解压缩并重命名文件,修改Hadoop和Spark配置文件,启动HDFS和Yarn集群后提交测试应用,配置历史服务可记录任务运行情况。

  • Windows模式部署:解压到指定路径,执行bin目录下的spark-shell.cmd启动本地环境,在命令行执行代码指令进行操作。

相关推荐
qqxhb1 天前
系统架构设计师备考第68天——大数据处理架构
大数据·hadoop·flink·spark·系统架构·lambda·kappa
xiaoshu_yilian1 天前
pyspark入门实操(收藏版)
spark
陈果然DeepVersion1 天前
Java大厂面试真题:从Spring Boot到AI微服务的三轮技术拷问(一)
java·spring boot·redis·微服务·kafka·面试题·oauth2
一瓢一瓢的饮 alanchan1 天前
Flink原理与实战(java版)#第1章 Flink快速入门(第一节IDE词频统计)
java·大数据·flink·kafka·实时计算·离线计算·流批一体化计算
冰芒芒2 天前
Kafka-1 基本概念
分布式·kafka
梦里不知身是客112 天前
Spark的容错机制
大数据·分布式·spark
乌恩大侠2 天前
【Spark】操作记录
人工智能·spark·usrp
大数据CLUB2 天前
酒店预订数据分析及预测可视化
大数据·hadoop·分布式·数据挖掘·数据分析·spark·mapreduce
新知图书3 天前
RDD的特点、算子与创建方法
数据分析·spark·1024程序员节
Hello.Reader3 天前
基于 Flink CDC 的 MySQL → Kafka Streaming ELT 实战
mysql·flink·kafka