Flink数据流写入Elasticsearch实战

目录

[1. 代码结构](#1. 代码结构)

[2. 代码解析](#2. 代码解析)

[(1) 主程序入口](#(1) 主程序入口)

[(2) 配置 Elasticsearch 集群](#(2) 配置 Elasticsearch 集群)

[(3) 定义 Elasticsearch Sink Function](#(3) 定义 Elasticsearch Sink Function)

[(4) 添加 Elasticsearch Sink](#(4) 添加 Elasticsearch Sink)

[(5) 执行任务](#(5) 执行任务)

[3. 验证命令](#3. 验证命令)


这段代码是一个使用 Apache Flink 将数据流(Event 对象)写入 Elasticsearch 的示例。以下是对代码的详细解析和说明:

1. 代码结构

  • 包声明package sink

    定义了代码所在的包。

  • 导入依赖

    导入了必要的 Java 和 Flink 相关类库,包括:

    • java.util:用于使用 ArrayListHashMap
    • org.apache.flink:Flink 的核心类库。
    • org.apache.flink.streaming.connectors.elasticsearch:Flink 的 Elasticsearch Sink 相关类。
    • org.elasticsearch.client.Requests:Elasticsearch 的请求工具类。
  • Event

    定义了一个简单的 Event 类,包含三个字段:

    • user:用户名称。
    • url:访问的 URL。
    • timestamp:时间戳。
  • sinkToEs 对象

    主程序入口,包含 Flink 流处理逻辑和 Elasticsearch Sink 的配置。

Scala 复制代码
package sink

import java.util

import org.apache.flink.api.common.functions.RuntimeContext
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.elasticsearch.{ElasticsearchSinkFunction, RequestIndexer}
import org.apache.flink.streaming.connectors.elasticsearch6.ElasticsearchSink
import org.apache.http.HttpHost
import org.elasticsearch.client.Requests
import source.ClickSource

case class Event(user:String,url:String,timestamp:Long)
/**
 *
 * @PROJECT_NAME: flink1.13
 * @PACKAGE_NAME: sink
 * @author: 赵嘉盟-HONOR
 * @data: 2023-11-20 15:04
 * @DESCRIPTION
 *
 */
object sinkToEs {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val data = env.fromElements(
      Event("Mary", "./home", 100L),
      Event("Sum", "./cart", 500L),
      Event("King", "./prod", 1000L),
      Event("King", "./root", 200L)
    )

    //定义es集群主机列表
    val hosts = new util.ArrayList[HttpHost]()
    hosts.add(new HttpHost("master",9200))

    //定义一个esSinkFunction
    val esFun = new ElasticsearchSinkFunction[Event] {
      override def process(t: Event, runtimeContext: RuntimeContext, requestIndexer: RequestIndexer): Unit = {
        val data = new util.HashMap[String, String]()
        data.put(t.user, t.url)
        //包装要发送的http请求
        val request = Requests.indexRequest()
          .index("clicks") //表名
          .source(data) //数据
          .`type`("event") //类型
        //发送请求
        requestIndexer.add(request)
      }
    }
    data.addSink(new ElasticsearchSink.Builder[Event](hosts,esFun).build())
    //验证命令
    //curl 'localhost:9200/_cat/indices?v'
    //curl 'localhost:9200/clicks/_search?pretty'
    env.execute("sinkRedis")
  }
}

基于scala使用flink将读取到的数据写入到ES

发送完毕后可以使用以下命令进行验证:

bash 复制代码
curl 'localhost:9200/_cat/indices?v'
curl 'localhost:9200/clicks/_search?pretty'

2. 代码解析

(1) 主程序入口
复制代码
def main(args: Array[String]): Unit = {
  val env = StreamExecutionEnvironment.getExecutionEnvironment
  val data = env.fromElements(
    Event("Mary", "./home", 100L),
    Event("Sum", "./cart", 500L),
    Event("King", "./prod", 1000L),
    Event("King", "./root", 200L)
  )
  • 创建 Flink 流处理环境 StreamExecutionEnvironment
  • 使用 fromElements 方法生成一个包含 4 个 Event 对象的流。
(2) 配置 Elasticsearch 集群
复制代码
val hosts = new util.ArrayList[HttpHost]()
hosts.add(new HttpHost("master", 9200))
  • 创建一个 ArrayList,用于存储 Elasticsearch 集群的主机信息。
  • 添加一个 Elasticsearch 节点(master,端口 9200)。
(3) 定义 Elasticsearch Sink Function
复制代码
val esFun = new ElasticsearchSinkFunction[Event] {
  override def process(t: Event, runtimeContext: RuntimeContext, requestIndexer: RequestIndexer): Unit = {
    val data = new util.HashMap[String, String]()
    data.put(t.user, t.url)
    val request = Requests.indexRequest()
      .index("clicks") // 索引名称
      .source(data)    // 数据
      .`type`("event") // 类型
    requestIndexer.add(request)
  }
}
  • 实现 ElasticsearchSinkFunction 接口,定义如何将 Event 对象写入 Elasticsearch。
  • process 方法中:
    • Event 对象的 userurl 字段存入 HashMap
    • 使用 Requests.indexRequest() 创建一个索引请求。
    • 指定索引名称(clicks)、数据源(data)和类型(event)。
    • 通过 requestIndexer.add(request) 发送请求。
(4) 添加 Elasticsearch Sink
复制代码
data.addSink(new ElasticsearchSink.Builder[Event](hosts, esFun).build())
  • 使用 ElasticsearchSink.Builder 构建 Elasticsearch Sink。
  • 将 Sink 添加到数据流中。
(5) 执行任务
复制代码
env.execute("sinkRedis")
  • 启动 Flink 流处理任务,任务名称为 sinkRedis

3. 验证命令

  • 查看 Elasticsearch 索引

    bash

    复制代码
    curl 'localhost:9200/_cat/indices?v'

    检查 clicks 索引是否创建成功。

  • 查询索引数据

    bash

    复制代码
    curl 'localhost:9200/clicks/_search?pretty'

    查看 clicks 索引中的数据。

相关推荐
Jackeyzhe7 小时前
Flink源码阅读:集群启动
flink
面向Google编程8 小时前
Flink源码阅读:Watermark机制
大数据·flink
Hello.Reader8 小时前
Flink SQL DELETE 语句批模式行级删除、连接器能力要求与实战避坑(含 Java 示例)
java·sql·flink
Elastic 中国社区官方博客10 小时前
让我们把这个 expense 工具从 n8n 迁移到 Elastic One Workflow
大数据·运维·elasticsearch·搜索引擎·ai·信息可视化·全文检索
Elasticsearch14 小时前
通过将 OpenTelemetry Collector 用作框架,释放其强大功能
elasticsearch
risc12345614 小时前
【Elasticsearch】如何读源码
elasticsearch
Hello.Reader16 小时前
Flink SQL 的 RESET 语句一键回到默认配置(SQL CLI 实战)
数据库·sql·flink
Mr-Apple17 小时前
记录一次git commit --amend的误操作
大数据·git·elasticsearch
Hello.Reader18 小时前
Flink SQL UPDATE 语句批模式行级更新、连接器能力要求与实战避坑
大数据·sql·flink
Hello.Reader18 小时前
Flink SQL CALL 语句调用存储过程做数据操作与运维任务(含 Java 示例 + 避坑指南)
运维·sql·flink