Kafka简介

  1. Kafka核心要点
  • 基础概念:是分布式消息系统,有高吞吐量、可扩展等特性。包含Producer、Consumer等多种角色,消息按Topic分类存储,支持两种消息队列模式。

  • 安装与配置:安装前需准备JDK和Zookeeper,下载解压后修改配置文件,分发安装包到集群节点,配置环境变量后可启动。

  • 命令行操作:可进行Topic创建、查看、删除,数据生产与消费等操作。

  • 架构原理:消息以Topic分类,Partition对应log文件存储数据,通过分片和索引提升效率。生产者有分区策略和可靠性保证机制,消费者采用拉模式,有分区分配和offset维护策略。

  • 组件整合:与Flume整合可实现数据监控传输,与SparkStreaming整合需导包并进行代码配置,还可利用Redis维护偏移量。

  1. Spark Core部署关键
  • Yarn模式部署:解压缩并重命名文件,修改Hadoop和Spark配置文件,启动HDFS和Yarn集群后提交测试应用,配置历史服务可记录任务运行情况。

  • Windows模式部署:解压到指定路径,执行bin目录下的spark-shell.cmd启动本地环境,在命令行执行代码指令进行操作。

相关推荐
Moshow郑锴5 小时前
Spark在银行系统ETL中的实战应用:TXT文件到PostgreSQL的余额处理全流程
postgresql·spark·etl
编程彩机6 小时前
互联网大厂Java面试:从分布式事务到微服务优化的技术场景解读
java·spring boot·redis·微服务·面试·kafka·分布式事务
petrel20156 小时前
【Spark 核心内参】2026.1:JIRA vs GitHub Issues 治理模式大讨论与 4.2.0 预览版首发
大数据·spark
petrel20157 小时前
【Spark 核心内参】2025.9:预览版常态化与数据类型的重构
大数据·spark
indexsunny7 小时前
互联网大厂Java面试实战:从Spring Boot到Kafka的技术与业务场景解析
java·spring boot·redis·面试·kafka·技术栈·microservices
bigdata-rookie7 小时前
Spark shuffle 和 MapReduce shuffle 的区别
大数据·spark·mapreduce
B站计算机毕业设计超人7 小时前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人7 小时前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计
uesowys8 小时前
Apache Spark算法开发指导-Random forest classifier
算法·随机森林·spark
鱼跃鹰飞8 小时前
大厂面试真题-说说Kafka消息的不重复和不丢失
java·分布式·kafka