StructuredStreaming (二)——kafka

将数据从kafka的某个主题中抽取出来,再将数据放入另一个主题中

一、导入jar包

通过百度网盘分享的文件:python-kafka

链接:https://pan.baidu.com/s/1q2UlOJFBNNuhRC87AlAACg?pwd=c6dy

提取码:c6dy

将这六个jar包放入本地pyspark中jars下

二、案例编写

首先需要生成数据,将数据源源不断的导入topicA中,再使用spark读取kafka中的数据,然后将清洗过的数据导入etlTopic中

复制代码
import os

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
import pyspark.sql.functions as F

if __name__ == '__main__':
    os.environ['JAVA_HOME'] = 'E:/java-configuration/jdk-8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/applications/bigdata_config/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'

    # 创建一个sparkSession对象
    spark = SparkSession.builder.appName("kafkaDemo").getOrCreate()

    kafkaDf = spark \
        .readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "bigdata01:9092") \
        .option("subscribe", "topicA") \
        .option("startingOffsets", "latest") \
        .load()
    # 这个就是为了 筛出想要的数据
    dataDf = kafkaDf.selectExpr("CAST(value AS STRING)")
    dataDf.createOrReplaceTempView("tmp")
    etlDf = spark.sql("""
    select * from tmp where value like "%success%"
    """)

    etlDf.writeStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "bigdata01:9092") \
        .option("topic", "etlTopic") \
        .option("checkpointLocation", "../../resources/ckp") \
        .start().awaitTermination()

    spark.stop()
相关推荐
何中应22 分钟前
RabbitMQ安装及简单使用
分布式·后端·消息队列
何中应26 分钟前
SpringAMQP消息转化器
分布式·后端·消息队列
indexsunny3 小时前
互联网大厂Java求职面试实战:基于电商场景的技术问答及解析
java·spring boot·redis·kafka·security·microservices·面试指导
百锦再5 小时前
Java中的日期时间API详解:从Date、Calendar到现代时间体系
java·开发语言·spring boot·struts·spring cloud·junit·kafka
Coder_Boy_7 小时前
Java高级_资深_架构岗 核心知识点——高并发模块(底层+实践+最佳实践)
java·开发语言·人工智能·spring boot·分布式·微服务·架构
百锦再8 小时前
Java IO详解:File、FileInputStream与FileOutputStream
java·开发语言·jvm·spring boot·spring cloud·kafka·maven
tod1138 小时前
Redis 分布式锁进阶:从看门狗到 Redlock 的高可用实践
数据库·redis·分布式
百锦再8 小时前
Java InputStream和OutputStream实现类完全指南
java·开发语言·spring boot·python·struts·spring cloud·kafka
闲人编程8 小时前
Celery分布式任务队列
redis·分布式·python·celery·任务队列·异步化
予枫的编程笔记9 小时前
【Kafka基础篇】RabbitMQ、RocketMQ、Kafka怎么选?3种主流MQ核心差异实测解析
kafka·rabbitmq·rocketmq·分布式流处理·发布订阅模型·消息队列(mq)·点对点模型