【头歌实训】kafka-入门篇

文章目录

[第1关：kafka - 初体验](#第1关：kafka - 初体验)
- 任务描述
- 相关知识
- - [Kafka 简述](#Kafka 简述)
  - [Kafka 应用场景](#Kafka 应用场景)
  - [Kafka 架构组件](#Kafka 架构组件)
  - [kafka 常用命令](#kafka 常用命令)
- 编程要求
- 测试说明
- 答案代码
[第2关：生产者（Producer ） - 简单模式](#第2关：生产者（Producer ） - 简单模式)
- 任务描述
- 相关知识
- - [Producer 简单模式](#Producer 简单模式)
  - [Producer 的开发步骤](#Producer 的开发步骤)
  - [Kafka 常用配置参数](#Kafka 常用配置参数)
- 编程要求
- 测试说明
- 答案代码
[第3关：消费者（ Consumer）- 自动提交偏移量](#第3关：消费者（ Consumer）- 自动提交偏移量)
- 任务描述
- 相关知识
- - [Kafka 消费者开发步骤](#Kafka 消费者开发步骤)
  - 自动提交偏移量的优劣
- 编程要求
- 测试说明
- 答案代码
[第4关：消费者（ Consumer ）- 手动提交偏移量](#第4关：消费者（ Consumer ）- 手动提交偏移量)
- 任务描述
- 相关知识
- - [Kafka 两种手动提交方式](#Kafka 两种手动提交方式)
- 编程要求
- 测试说明
- 答案代码

第1关：kafka - 初体验

任务描述

本关任务：使用 Kafka 命令创建一个副本数量为1、分区数量为3的 Topic 。

相关知识

为了完成本关任务，你需要掌握：1.如何使用 Kafka 的常用命令。

课程视频《Kafka简介》

Kafka 简述

类 JMS 消息队列，结合 JMS 中的两种模式，可以有多个消费者主动拉取数据，在 JMS 中只有点对点模式才有消费者主动拉取数据。

Kafka 是一个生产-消费模型。

Producer ：消息生产者，就是向 Kafka Broker 发消息的客户端。

Consumer ：消息消费者，向 Kafka Broker 取消息的客户端。

Topic ：我们可以理解为一个队列。

Consumer Group （CG）：这是 Kafka 用来实现一个 Topic 消息的广播（发给所有的 Consumer ）和单播（发给任意一个 Consumer ）的手段。一个 Topic 可以有多个CG。Topic 的消息会复制（不是真的复制，是概念上的）到所有的 CG ，但每个 Partion 只会把消息发给该 CG 中的一个 Consumer 。如果需要实现广播，只要每个 Consumer 有一个独立的 CG 就可以了。要实现单播只要所有的 Consumer 在同一个 CG。用CG 还可以将 Consumer 进行自由的分组而不需要多次发送消息到不同的 Topic。

Broker ：一台 Kafka 服务器就是一个 Broker 。一个集群由多个Broker组成。一个 Broker 可以容纳多个 Topic。

Partition ：为了实现扩展性，一个非常大的 Topic 可以分布到多个Broker（即服务器）上，一个 Topic 可以分为多个 Partition ，每个 Partition 是一个有序的队列。Partition 中的每条消息都会被分配一个有序的 Id（ Offset ）。Kafka 只保证按一个 Partition 中的顺序将消息发给 Consumer ，不保证一个 Topic 的整体（多个 Partition间）的顺序。

Offset ：Kafka 的存储文件都是按照 Offset . index 来命名，用Offset 做名字的好处是方便查找。例如你想找位于2049的位置，只要找到 2048 . index 的文件即可。当然 the first offset 就是 00000000000 . index。

Kafka 应用场景

日志收集：一个公司可以用 Kafka 可以收集各种服务的 Log ，通过Kafka 以统一接口服务的方式开放给各种 Consumer ，例如 Hadoop 、Hbase 、Solr 等。
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka 经常被用来记录 Web 用户或者 App 用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到 Kafka 的Topic 中，然后订阅者通过订阅这些 Topic 来做实时的监控分析，或者装载到 Hadoop 、数据仓库中做离线分析和挖掘。
运营指标：Kafka 也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如 Spark streaming 和 Storm、Flink。
事件源。

Kafka 架构组件

Kafka 中发布订阅的对象是 Topic。我们可以为每类数据创建一个 Topic ，把向 Topic 发布消息的客户端称作 Producer ，从 Topic 订阅消息的客户端称作 Consumer 。Producers 和 Consumers 可以同时从多个 Topic 读写数据。一个 Kafka 集群由一个或多个 Broker 服务器组成，它负责持久化和备份具体的 Kafka 消息。

kafka 常用命令

查看当前服务器中的所有 Topic bin/kafka-topics.sh --list --zookeeper zk01:2181
创建 Topic ./kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 3 --topic first

说明：replication-factor 是指副本数量，partitions 是指分区数量

删除 Topic bin/kafka-topics.sh --delete --zookeeper zk01:2181 --topic test 需要 server.properties 中设置 delete.topic.enable = true 否则只是标记删除或者直接重启。
通过 Shell 命令发送消息 kafka-console-producer.sh --broker-list kafka01:9092 --topic demo
通过 Shell 消费消息 bin/kafka-console-consumer.sh --zookeeper zk01:2181 --from-beginning --topic test1
查看消费位置 kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zookeeper zk01:2181 --group testGroup
查看某个 Topic 的详情 kafka-topics.sh --topic test --describe --zookeeper zk01:2181

说明：此处的 zk01 是 Zookeeper 的 IP 地址， kafka01 是 Broker 的 IP 地址

编程要求

根据提示，在右侧编辑器补充代码完成以下任务。

创建一个副本数量为1、分区数量为3、名为 demo 的 Topic
查看所有 Topic
查看名为 demo 的 Topic 的详情信息

注意：Broker 的 IP 为127.0.0.1，Zookeeper 的 IP 为127.0.0.1

扩展任务：

使用一个命令行开启 Kafka Producer Shell 窗口并对名为 demo 的 Topic 进行数据生产
使用另一个命令行开启 Kafka Customer Shell 窗口并对名为 demo 的 Topic进行消费

说明：扩展任务没有进行评测，此任务目的是为了让用户体验下 Kafka 的数据生产与数据消费的两个环节，更好理解 Kafka

测试说明

平台会对你的命令进行检验并运行，你只需要按照任务需求，补充右侧编辑器的代码，然后点击评测就ok了。 - -

特别注意：为了确保运行拥有一个正常的运行环境，请在评测之前，重置下运行环境

答案代码

命令行代码

sh 复制代码

kafka-server-start.sh  /opt/kafka_2.11-1.1.0/config/server.properties

shell 文件

sh 复制代码

#!/bin/bash
 
#1.创建一个副本数量为1、分区数量为3、名为 demo 的 Topic
kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic demo
 
#2.查看所有Topic
kafka-topics.sh --list --zookeeper  127.0.0.1:2181
 
#3.查看名为demo的Topic的详情信息
kafka-topics.sh --topic demo --describe --zookeeper 127.0.0.1:2181

第2关：生产者（Producer ） - 简单模式

任务描述

本关任务：编写一个 Kafka 的 Producer 进行数据生产。

名称	说明	默认值	有效值	重要性
bootstrap.servers	kafka集群的broker-list，如： hadoop01:9092,hadoop02:9092	无		必选
key.serializer	key的序列化器		ByteArraySerializer StringSerializer	必选
value.serializer	value的序列化器		ByteArraySerializer StringSerializer	必选
acks	确保生产者可靠性设置，有三个选项： acks=0：不等待成功返回 acks=1：等Leader写成功返回 acks=all：等Leader和所有ISR中的Follower写成功返回，all也可以用-1代替	-1	0,1,-1,all	建议必选
buffer.memory	Producer总体内存大小	33554432	不要超过物理内存，根据实际情况调整	建议必选
batch.size	每个partition的未发送消息大小	16384	根据实际情况调整	建议必选

编程要求

根据提示，在右侧编辑器补充代码，使用 Kafka Producer API 对名为 demo 的 Topic 进行数据生产。

测试说明

平台会对你的命令进行检验并运行，你只需要按照任务需求，补充右侧编辑器的代码，然后点击评测就ok了。 - -

答案代码

用 conf/server.properties ，如果用 config/server.properties 的话需要把 log.dirs 和 num.partitions 这两个配置改了

sh 复制代码

cd $KAFKA_HOME/
vim config/server.properties

# 使用 :/log.dirs 找到位置，或者直接 :$ 在最后一行加 
log.dirs=/export/servers/logs/kafka/
num.partitions=2

命令行执行代码

sh 复制代码

# kafka 依赖 zookeeper，所以需要先启动 zookeeper 服务
cd $ZOOKEEPER_HOME/
bin/zkServer.sh start conf/zoo.cfg
# 启动 Kafka 服务
cd $KAFKA_HOME/
bin/kafka-server-start.sh -daemon conf/server.properties

Java 代码

java 复制代码

package net.educoder;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
/**
 * kafka producer 简单模式
 */
public class App {
    public static void main(String[] args) {
        /**
         * 1.创建配置文件对象，一般采用 Properties
         */
        /**----------------begin-----------------------*/
        Properties props = new Properties();
        /**-----------------end-------------------------*/
        /**
         * 2.设置kafka的一些参数
         *          bootstrap.servers --> kafka的连接地址 127.0.0.1:9092
         *          key、value的序列化类 -->org.apache.kafka.common.serialization.StringSerializer
         *          acks：1，-1,0
         */
        /**-----------------begin-----------------------*/
        props.put("bootstrap.servers", "127.0.0.1:9092");
        props.put("acks", "1");
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        /**-----------------end-------------------------*/
        /**
         * 3.构建kafkaProducer对象
         */
        /**-----------------begin-----------------------*/
        Producer<String, String> producer = new KafkaProducer<>(props);
        /**-----------------end-------------------------*/
        for (int i = 0; i < 100; i++) {
            ProducerRecord<String, String> record = new ProducerRecord<>("demo", i + "", i + "");
            /**
             * 4.发送消息
             */
            /**-----------------begin-----------------------*/
            producer.send(record);
            /**-----------------end-------------------------*/
        }
        producer.close();
    }
}

第3关：消费者（ Consumer）- 自动提交偏移量

任务描述

本关任务：编写一个 Kafka 消费者并设置自动提交偏移量进行数据消费。

编程要求

使用 Kafka Consumer API 对名为 demo 的 Topic 进行消费，并设置自动提交偏移量。

测试说明

平台会对你的命令进行检验并运行，你只需要按照任务需求，补充右侧编辑器的代码，然后点击评测就 ok 了。 - -

答案代码

java 复制代码

package net.educoder;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.Arrays;
import java.util.Properties;
public class App {
    public static void main(String[] args) {
        Properties props = new Properties();
        /**--------------begin----------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers", "127.0.0.1:9092");
        //2.设置消费者组，组名字自定义，组名字相同的消费者在一个组
        props.put("group.id", "g1");
        //3.开启offset自动提交
        props.put("enable.auto.commit", "true");
        //4.自动提交时间间隔
        props.put("auto.commit.interval.ms", "1000");
        //5.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        /**---------------end---------------*/
        /**--------------begin----------------*/
        //6.创建kafka消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //7.订阅kafka的topic
        consumer.subscribe(Arrays.asList("demo"));
        /**---------------end---------------*/
        int i = 1;
        while (true) {
            /**----------------------begin--------------------------------*/
            //8.poll消息数据,返回的变量为crs
            ConsumerRecords<String, String> crs = consumer.poll(100);
            for (ConsumerRecord<String, String> cr : crs) {
                System.out.println("consume data:" + i);
                i++;
            }
            /**----------------------end--------------------------------*/
            if (i > 10) {
                return;
            }
        }
    }
}

第4关：消费者（ Consumer ）- 手动提交偏移量

任务描述

本关任务：编写一个 Kafka 消费者并使用手动提交偏移量进行数据消费。

编程要求

根据提示，在右侧编辑器补充代码，使用 Kafka Producer API 对名为 demo 的 Topic 进行数据生产

测试说明

平台会对你的命令进行检验并运行，你只需要按照任务需求，补充右侧编辑器的代码，然后点击评测就ok了。 - -

答案代码

命令行代码

sh 复制代码

# kafka 依赖 zookeeper，所以需要先启动 zookeeper 服务
cd $ZOOKEEPER_HOME/
bin/zkServer.sh start conf/zoo.cfg
# 启动 Kafka 服务
cd $KAFKA_HOME/
bin/kafka-server-start.sh -daemon conf/server.properties

Java 代码

java 复制代码

package net.educoder;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;
public class App {
    public static void main(String[] args){
        Properties props = new Properties();
        /**-----------------begin------------------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers", "127.0.0.1:9092");
        //2.设置消费者组，组名字自定义，组名字相同的消费者在一个组
        props.put("group.id", "g1");
        //3.关闭offset自动提交
        props.put("enable.auto.commit", "false");
        //4.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        /**-----------------end------------------------*/
        /**-----------------begin------------------------*/
        //5.实例化一个消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //6.消费者订阅主题，订阅名为demo的主题
        consumer.subscribe(Arrays.asList("demo"));
        /**-----------------end------------------------*/
        final int minBatchSize = 10;
        List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                buffer.add(record);
            }
            if (buffer.size() >= minBatchSize) {
                for (ConsumerRecord bf : buffer) {
                    System.out.printf("offset = %d, key = %s, value = %s%n", bf.offset(), bf.key(), bf.value());
                }
                /**-----------------begin------------------------*/
                //7.手动提交偏移量
                consumer.commitSync();
                /**-----------------end------------------------*/
                buffer.clear();
                return;
            }
        }
    }
}

【头歌实训】kafka-入门篇

文章目录

第1关：kafka - 初体验

任务描述

相关知识

Kafka 简述

Kafka 应用场景

Kafka 架构组件

kafka 常用命令

编程要求

测试说明

答案代码

第2关：生产者 （Producer ） - 简单模式

任务描述

相关知识

Producer 简单模式

Producer 的开发步骤

Kafka 常用配置参数

编程要求

测试说明

答案代码

第3关：消费者（ Consumer）- 自动提交偏移量

任务描述

相关知识

Kafka 消费者开发步骤

自动提交偏移量的优劣

编程要求

测试说明

答案代码

第4关：消费者（ Consumer ）- 手动提交偏移量

任务描述

相关知识

Kafka 两种手动提交方式

编程要求

测试说明

答案代码

第2关：生产者（Producer ） - 简单模式