StructuredStreaming (二)——kafka

将数据从kafka的某个主题中抽取出来,再将数据放入另一个主题中

一、导入jar包

通过百度网盘分享的文件:python-kafka

链接:https://pan.baidu.com/s/1q2UlOJFBNNuhRC87AlAACg?pwd=c6dy

提取码:c6dy

将这六个jar包放入本地pyspark中jars下

二、案例编写

首先需要生成数据,将数据源源不断的导入topicA中,再使用spark读取kafka中的数据,然后将清洗过的数据导入etlTopic中

复制代码
import os

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
import pyspark.sql.functions as F

if __name__ == '__main__':
    os.environ['JAVA_HOME'] = 'E:/java-configuration/jdk-8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/applications/bigdata_config/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'

    # 创建一个sparkSession对象
    spark = SparkSession.builder.appName("kafkaDemo").getOrCreate()

    kafkaDf = spark \
        .readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "bigdata01:9092") \
        .option("subscribe", "topicA") \
        .option("startingOffsets", "latest") \
        .load()
    # 这个就是为了 筛出想要的数据
    dataDf = kafkaDf.selectExpr("CAST(value AS STRING)")
    dataDf.createOrReplaceTempView("tmp")
    etlDf = spark.sql("""
    select * from tmp where value like "%success%"
    """)

    etlDf.writeStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "bigdata01:9092") \
        .option("topic", "etlTopic") \
        .option("checkpointLocation", "../../resources/ckp") \
        .start().awaitTermination()

    spark.stop()
相关推荐
腾讯云中间件7 小时前
Kafka 集群上云新突破:腾讯云 CKafka 联邦迁移方案
云原生·kafka·消息队列
跟着珅聪学java7 小时前
在电商系统中,如何确保库存扣减的原子性
分布式
JH30739 小时前
Redisson 看门狗机制:让分布式锁“活”下去的智能保镖
分布式
一点 内容10 小时前
深入理解分布式共识算法 Raft:从原理到实践
分布式·区块链·共识算法
8Qi811 小时前
分布式锁-redission
java·redis·分布式·redisson
11 小时前
鸿蒙——分布式数据库
数据库·分布式
jiayong2311 小时前
微服务架构与 Spring 生态完全指南
kafka·rabbitmq·rocketmq
Hui Baby12 小时前
分布式多阶段入参参数获取
分布式
阿拉斯攀登14 小时前
Spring Cloud Alibaba 生态中 RocketMQ 最佳实践
分布式·微服务·rocketmq·springcloud·cloudalibaba
无锡布里渊14 小时前
感温光纤 DTS 系统 vs 感温电缆 对比分析报告
分布式·实时监测·分布式光纤测温·线型感温火灾监测·感温电缆