Kafka-Connect自带示例

一、上下文

《Kafka-Connect》中已经阐述了Kafka-Connect的理论知识,为了更生动的理解它,我们今天通过官方的一个小例子来感受下它的妙用。

二、创建topic

kafka-topics --create --topic connect-test --bootstrap-server cdh1:9092 --partitions 2 --replication-factor 2

三、编写配置文件

在cdh环境中,这些配置文件所在的目录为:

/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/

1、connect-standalone.properties

用于建立与Kafka集群的初始连接的主机/端口对列表。以下是cdh中的例子

bootstrap.servers=cdh1:9092,cdh2:9092,cdh3:9092

转换器指定Kafka中数据的格式以及如何将其转换为Connect数据。每个Connect用户都需要根据他们希望从Kafka加载或存储数据时使用的格式进行配置

key.converter=org.apache.kafka.connect.json.JsonConverter

value.converter=org.apache.kafka.connect.json.JsonConverter

转换器特定的设置可以通过在转换器的设置前加上我们想要应用的转换器来传递

key.converter.schemas.enable=true

value.converter.schemas.enable=true

offset.storage.file.filename=/tmp/connect.offsets

刷新速度比正常情况快得多,这对测试/调试很有用

offset.flush.interval.ms=10000

设置为用逗号(,)分隔的文件系统路径列表,以启用插件(连接器、转换器、转换)的类加载隔离。该列表应由顶级目录组成,其中包括以下内容的任意组合:

a) 直接包含带有插件及其依赖项的jar的目录

b) uber包含插件及其依赖项

c) 直接包含插件类及其依赖项的包目录结构的目录

注意:将遵循符号链接来发现依赖关系或插件。

Examples:

plugin.path=/usr/local/share/java,/usr/local/share/kafka/plugins,/opt/connectors,

#plugin.path=

2、connect-file-source.properties

name=local-file-source

connector.class=FileStreamSource

tasks.max=1

file=/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-test-data/source.txt

topic=connect-test

3、connect-file-sink.properties

name=local-file-sink

connector.class=FileStreamSink

tasks.max=1

file=/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-test-data/sink.txt

topics=connect-test

四、运行

bash 复制代码
cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/kafka/bin/
./connect-standalone.sh /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-standalone.properties /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-source.properties /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-sink.properties

启动成功后如图所示:

五、测试

我们项source.txt 中写入一些数据

bash 复制代码
echo 1 >> source.txt
echo 2 >> source.txt
echo 3 >> source.txt
echo 4 >> source.txt
echo 5 >> source.txt
echo 6 >> source.txt
echo 7 >> source.txt
echo 8 >> source.txt
echo 9 >> source.txt
echo 10 >> source.txt

从结果上看感觉sink.txt中结果是乱序的,这是因为我们创建topic时设置了2个分区,我们用consoumer来看看各个分区的顺序情况:

bash 复制代码
kafka-console-consumer --topic connect-test --from-beginning --bootstrap-server cdh1:9092,cdh2:9092,cdh3:9092 --partition 0
bash 复制代码
kafka-console-consumer --topic connect-test --from-beginning --bootstrap-server cdh1:9092,cdh2:9092,cdh3:9092 --partition 1

我们再次看sink.txt的结果就可以理解了,kafka只保证了分区有序,如果使用Kafka-Connect时想保证文件的输入和输出是有序的,就需要设定topic为1个分区。

相关推荐
Wang's Blog41 分钟前
RabbitMQ: 消息交换机制的核心原理与实践指南之基于 AMQP 协议的系统设计与工程实现
分布式·rabbitmq
狮恒1 小时前
OpenHarmony Flutter 分布式音视频:跨设备流传输与实时协同交互方案
分布式·flutter·wpf·openharmony
狮恒2 小时前
OpenHarmony Flutter 分布式安全与隐私保护:跨设备可信交互与数据防泄漏方案
分布式·flutter·wpf·openharmony
ha_lydms2 小时前
Spark函数
大数据·分布式·spark
狮恒4 小时前
OpenHarmony Flutter 分布式任务调度:跨设备资源协同与负载均衡方案
分布式·flutter·wpf·openharmony
豫狮恒5 小时前
OpenHarmony Flutter 分布式权限管理:跨设备可信访问与权限协同方案
分布式·flutter·wpf·openharmony
TiDB 社区干货传送门5 小时前
“医疗专业应用+分布式数据底座”:平凯数据库与金唐软件全链路赋能医疗国产化与数字化转型
数据库·分布式
码界奇点5 小时前
基于微服务架构的分布式量化交易系统设计与实现
分布式·微服务·架构·车载系统·毕业设计·源代码管理
小白|6 小时前
Flutter 与 OpenHarmony 深度融合:实现分布式文件共享与跨设备协同编辑系统
分布式·flutter·wpf
敲上瘾6 小时前
MySQL主从集群解析:从原理到Docker实战部署
android·数据库·分布式·mysql·docker·数据库架构