零基础掌握Kafka

Apache Kafka是当前最流行的分布式流处理平台之一,由LinkedIn开发并于2011年开源。它被设计用于高吞吐量、低延迟的场景,广泛应用于日志收集、流处理、事件源等多种场合。本文将带你从零开始学习Kafka,并通过Java代码示例展示如何发送消息。

第一部分:Kafka基础知识

1.1 Kafka简介

Kafka是一个分布式的、可分区的、可复制的消息系统,它主要用于处理大规模实时消息。Kafka的设计目标是高吞吐量、持久存储和低延迟处理。

1.2 核心概念

  • Broker:Kafka集群包含一个或多个服务器,这些服务器被称为broker。
  • Topic:消息的分类。在Kafka中,每条消息属于一个特定的topic。
  • Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(服务器)上,一个topic可以分为多个partition。
  • Producer:消息和数据的生产者,负责创建消息,然后将其发布到Kafka topic。
  • Consumer:消息的消费者,订阅数据并处理其接收的数据。
  • ZooKeeper:Kafka用来保持集群配置一致性的服务,它用于管理broker节点的状态以及进行领导者选举。

1.3 Kafka工作流程

  1. 生产者将消息发送到Kafka服务器中的topic。这些消息存储在topic的partition中。
  2. 消费者订阅一个或多个topic,并从broker拉数据来进行处理。
  3. Kafka中的每个partition都有序地存储接收到的消息,并且每条消息在partition中都有一个唯一的序号,称为offset。

第二部分:Kafka的安装和基本操作

2.1 安装Kafka

Kafka依赖于ZooKeeper,因此需要先安装ZooKeeper。可以通过以下步骤在本地环境中安装Kafka和ZooKeeper:

  1. 下载Kafka :访问Apache Kafka官网下载最新版本的Kafka。

  2. 解压Kafka:解压下载的文件至您选择的目录。

  3. 启动ZooKeeper服务

    复制代码
    bin/zookeeper-server-start.sh config/zookeeper.properties
  4. 启动Kafka服务

    复制代码
    bin/kafka-server-start.sh config/server.properties

2.2 创建和管理Topic

  • 创建Topic

    复制代码
    bin/kafka-topics.sh --create --topic quickstart --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1
  • 查看所有Topic

    复制代码
    bin/kafka-topics.sh --list --bootstrap-server localhost:9092

第三部分:使用Java进行消息发送

3.1 环境准备

确保你的机器上安装了Java和Maven。我们将使用Maven来管理项目依赖。

3.2 创建Maven项目

在你选择的IDE中创建一个新的Maven项目,添加以下依赖到pom.xml文件中:

复制代码
<dependencies>
    <dependency>
        <groupId>org.apache.kafka</groupId>
        <artifactId>kafka-clients</artifactId>
        <version>2.8.0</version>
    </dependency>
</dependencies>

3.3 编写生产者代码

创建一个Java类KafkaProducerExample.java,并添加以下代码:

复制代码
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.RecordMetadata;
import java.util.Properties;

public class KafkaProducerExample {
    public static void main(String[] args) {
        // 设置连接Kafka的初始配置
        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");

        // 创建生产者实例
        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        try {
            for (int i = 0; i < 100; i++) {
                // 发送消息
                ProducerRecord<String, String> record = new ProducerRecord<>("quickstart", "key-" + i, "value-" + i);
                producer.send(record, (RecordMetadata metadata, Exception exception) -> {
                    if (exception == null) {
                        System.out.printf("Sent message: (key=%s, value=%s) at offset %d%n", record.key(), record.value(), metadata.offset());
                    } else {
                        exception.printStackTrace();
                    }
                });
            }
        } finally {
            // 关闭生产者,释放资源
            producer.close();
        }
    }
}

3.4 运行和验证

运行KafkaProducerExample.java,并观察控制台输出。你将看到消息被发送到Kafka,并打印出每条消息的键、值和偏移量。

相关推荐
凯子坚持 c8 小时前
CANN 生态中的分布式训练利器:深入 `collective-ops` 项目实现高效多卡协同
分布式
岁岁种桃花儿8 小时前
Kafka从入门到上天系列第一篇:kafka的安装和启动
大数据·中间件·kafka
惊讶的猫9 小时前
rabbitmq实践小案例
分布式·rabbitmq
禁默10 小时前
打破集群通信“内存墙”:手把手教你用 CANN SHMEM 重构 AIGC 分布式算子
分布式·重构·aigc
惊讶的猫11 小时前
rabbitmq初步介绍
分布式·rabbitmq
小镇敲码人11 小时前
华为CANN框架中HCCL仓库的全面解析:分布式通信的引擎
分布式·华为
User_芊芊君子12 小时前
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
分布式·深度学习·神经网络·wpf
酷酷的崽79812 小时前
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
分布式·开源
惊讶的猫13 小时前
AMQP 与 RabbitMQ 四大模型
分布式·rabbitmq
灰子学技术13 小时前
istio从0到1:如何解决分布式配置同步问题
分布式·云原生·istio