Spark写数据到Kafka

创建KafkaSink对象:

scala 复制代码
import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}

import java.util.concurrent.Future

/**
 *
 * Author:jianjipan@kanzhun.com
 * Date:2024/2/26 10:50
 */
class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {
  lazy val producer = createProducer()

  def send(topic: String, key: K, value: V): Future[RecordMetadata] =
    producer.send(new ProducerRecord[K, V](topic, key, value))

  def send(topic: String, value: V): Future[RecordMetadata] =
    producer.send(new ProducerRecord[K, V](topic, value))
}
  • 该对象接受一个类型为() => KafkaProducer[K, V]的函数类型参数createProducer。这是一种高阶函数,允许在实例化时提供创建KafkaProducer对象的具体逻辑。

  • 使用了lazy关键字进行声明。这意味着producer属性在首次访问时才会被初始化,延迟了对象的创建,提高了性能。

然后创建KafkaSink单例对象,用来实例化KafkaSink对象

java 复制代码
import com.zhipin.model.factory.spark.kafka.KafkaSink
import org.apache.kafka.clients.producer.KafkaProducer

/**
 *
 * Author:jianjipan@kanzhun.com
 * Date:2024/2/26 10:59
 */
object KafkaSink {

  import scala.collection.JavaConversions._

  def apply[K, V](config: Map[String, Object]): KafkaSink[K, V] = {
    val createProducerFunc = () => {
      val producer = new KafkaProducer[K, V](config)
      sys.addShutdownHook {
        producer.close()
      }
      producer
    }
    new KafkaSink(createProducerFunc)
  }

  def apply[K, V](config: java.util.Properties): KafkaSink[K, V] = apply(config.toMap)
}

在Scala中,apply方法是一种特殊的方法,可以在对象名后面使用圆括号调用,就像调用一个函数一样。具体调用的方式有以下几种情况:

对象名():当对象的apply方法没有参数时,可以直接使用圆括号调用,例如obj()。

对象名(参数1, 参数2, ...):当对象的apply方法具有参数时,可以通过将参数放入圆括号中来调用,例如obj(arg1, arg2)。

对象名.apply():也可以显式地使用.apply方法来调用。例如obj.apply()。

除了上述示例,还可以在类似于集合的场景下使用apply方法。例如,对于一个List对象list,可以通过下标来访问元素,实际上是调用了list的apply方法。例如list(0)实际上调用了list.apply(0)。

总之,Scala中的apply方法可以让对象像函数一样被调用,提供了一种简洁的语法来创建和调用对象。

然后应用上述方法实现DataFrame数据导入Kafka的逻辑

scala 复制代码
    val sparkConf = new SparkConf().setAppName("DatasetToKafka")
    sparkConf.set("spark.serializer", classOf[KryoSerializer].getName)
    val spark = SparkSession.builder()
      .config(sparkConf)
      .getOrCreate()


    val taskId=args(0)
    val paramEntity = JobArgsService.queryJobArgs(taskId,classOf[DataSetToKafkaEntity])

    //构建kafkaProducer广播变量
    val kafkaProducer: Broadcast[KafkaSink[String, String]] = {
      val kafkaProducerConf = {
        val p = new Properties()
        val userName=paramEntity.getMqUserName
        val password=paramEntity.getMqPassWord
        p.setProperty("bootstrap.servers", paramEntity.getMqBrokenIps)
        p.setProperty("key.serializer", classOf[StringSerializer].getName)
        p.setProperty("value.serializer", classOf[StringSerializer].getName)
        p.setProperty("acks","1")
        p.setProperty("retries","3")
        p.setProperty("security.protocol","SASL_PLAINTEXT")
        p.setProperty("sasl.mechanism","SCRAM-SHA-256")
        p.setProperty("sasl.jaas.config", "org.apache.kafka.common.security.scram.ScramLoginModule required " +
          "username=\"" + userName + "\" password=\"" + password + "\";")
        p
      }
      spark.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConf))
    }

    //从dataset取数
    val topic = paramEntity.getMqTopic
    val sqlLogic = paramEntity.getSqlLogic
    val df = spark.sql(sqlLogic).withColumn("taskId",lit(taskId)).toJSON

    //写入Kafka
    df.foreach(row => {
      kafkaProducer.value.send(topic, row)
      println("推送完成:" + row)
    })

通过使用广播变量,可以将KafkaSink实例在集群中的多个任务中共享,减少了每个任务中创建KafkaSink的开销,提高了效率。

相关推荐
老蒋新思维38 分钟前
创客匠人峰会复盘:AI 时代知识变现,从流量思维到共识驱动的系统重构
大数据·人工智能·tcp/ip·重构·创始人ip·创客匠人·知识变现
东哥说-MES|从入门到精通8 小时前
GenAI-生成式人工智能在工业制造中的应用
大数据·人工智能·智能制造·数字化·数字化转型·mes
万岳软件开发小城8 小时前
教育APP/小程序开发标准版图:课程、题库、直播、学习一站式梳理
大数据·php·uniapp·在线教育系统源码·教育app开发·教育软件开发
STLearner10 小时前
AI论文速读 | U-Cast:学习高维时间序列预测的层次结构
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
数字化顾问10 小时前
(65页PPT)大型集团物料主数据管理系统建设规划方案(附下载方式)
大数据·运维·人工智能
老蒋新思维11 小时前
创客匠人 2025 全球创始人 IP+AI 万人高峰论坛:AI 赋能下知识变现与 IP 变现的实践沉淀与行业启示
大数据·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人
河南博为智能科技有限公司12 小时前
高集成度国产八串口联网服务器:工业级多设备联网解决方案
大数据·运维·服务器·数据库·人工智能·物联网
无代码专家14 小时前
设备巡检数字化解决方案:构建高效闭环管理体系
java·大数据·人工智能
天远数科14 小时前
Node.js 原生加密指南:详解 Crypto 模块对接天远银行卡黑名单接口
大数据·api
expect7g14 小时前
Paimon Branch --- 流批一体化之二
大数据·后端·flink