Flink数据流写入Elasticsearch实战

目录

[1. 代码结构](#1. 代码结构)

[2. 代码解析](#2. 代码解析)

[(1) 主程序入口](#(1) 主程序入口)

[(2) 配置 Elasticsearch 集群](#(2) 配置 Elasticsearch 集群)

[(3) 定义 Elasticsearch Sink Function](#(3) 定义 Elasticsearch Sink Function)

[(4) 添加 Elasticsearch Sink](#(4) 添加 Elasticsearch Sink)

[(5) 执行任务](#(5) 执行任务)

[3. 验证命令](#3. 验证命令)


这段代码是一个使用 Apache Flink 将数据流(Event 对象)写入 Elasticsearch 的示例。以下是对代码的详细解析和说明:

1. 代码结构

  • 包声明package sink

    定义了代码所在的包。

  • 导入依赖

    导入了必要的 Java 和 Flink 相关类库,包括:

    • java.util:用于使用 ArrayListHashMap
    • org.apache.flink:Flink 的核心类库。
    • org.apache.flink.streaming.connectors.elasticsearch:Flink 的 Elasticsearch Sink 相关类。
    • org.elasticsearch.client.Requests:Elasticsearch 的请求工具类。
  • Event

    定义了一个简单的 Event 类,包含三个字段:

    • user:用户名称。
    • url:访问的 URL。
    • timestamp:时间戳。
  • sinkToEs 对象

    主程序入口,包含 Flink 流处理逻辑和 Elasticsearch Sink 的配置。

Scala 复制代码
package sink

import java.util

import org.apache.flink.api.common.functions.RuntimeContext
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.elasticsearch.{ElasticsearchSinkFunction, RequestIndexer}
import org.apache.flink.streaming.connectors.elasticsearch6.ElasticsearchSink
import org.apache.http.HttpHost
import org.elasticsearch.client.Requests
import source.ClickSource

case class Event(user:String,url:String,timestamp:Long)
/**
 *
 * @PROJECT_NAME: flink1.13
 * @PACKAGE_NAME: sink
 * @author: 赵嘉盟-HONOR
 * @data: 2023-11-20 15:04
 * @DESCRIPTION
 *
 */
object sinkToEs {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val data = env.fromElements(
      Event("Mary", "./home", 100L),
      Event("Sum", "./cart", 500L),
      Event("King", "./prod", 1000L),
      Event("King", "./root", 200L)
    )

    //定义es集群主机列表
    val hosts = new util.ArrayList[HttpHost]()
    hosts.add(new HttpHost("master",9200))

    //定义一个esSinkFunction
    val esFun = new ElasticsearchSinkFunction[Event] {
      override def process(t: Event, runtimeContext: RuntimeContext, requestIndexer: RequestIndexer): Unit = {
        val data = new util.HashMap[String, String]()
        data.put(t.user, t.url)
        //包装要发送的http请求
        val request = Requests.indexRequest()
          .index("clicks") //表名
          .source(data) //数据
          .`type`("event") //类型
        //发送请求
        requestIndexer.add(request)
      }
    }
    data.addSink(new ElasticsearchSink.Builder[Event](hosts,esFun).build())
    //验证命令
    //curl 'localhost:9200/_cat/indices?v'
    //curl 'localhost:9200/clicks/_search?pretty'
    env.execute("sinkRedis")
  }
}

基于scala使用flink将读取到的数据写入到ES

发送完毕后可以使用以下命令进行验证:

bash 复制代码
curl 'localhost:9200/_cat/indices?v'
curl 'localhost:9200/clicks/_search?pretty'

2. 代码解析

(1) 主程序入口
复制代码
def main(args: Array[String]): Unit = {
  val env = StreamExecutionEnvironment.getExecutionEnvironment
  val data = env.fromElements(
    Event("Mary", "./home", 100L),
    Event("Sum", "./cart", 500L),
    Event("King", "./prod", 1000L),
    Event("King", "./root", 200L)
  )
  • 创建 Flink 流处理环境 StreamExecutionEnvironment
  • 使用 fromElements 方法生成一个包含 4 个 Event 对象的流。
(2) 配置 Elasticsearch 集群
复制代码
val hosts = new util.ArrayList[HttpHost]()
hosts.add(new HttpHost("master", 9200))
  • 创建一个 ArrayList,用于存储 Elasticsearch 集群的主机信息。
  • 添加一个 Elasticsearch 节点(master,端口 9200)。
(3) 定义 Elasticsearch Sink Function
复制代码
val esFun = new ElasticsearchSinkFunction[Event] {
  override def process(t: Event, runtimeContext: RuntimeContext, requestIndexer: RequestIndexer): Unit = {
    val data = new util.HashMap[String, String]()
    data.put(t.user, t.url)
    val request = Requests.indexRequest()
      .index("clicks") // 索引名称
      .source(data)    // 数据
      .`type`("event") // 类型
    requestIndexer.add(request)
  }
}
  • 实现 ElasticsearchSinkFunction 接口,定义如何将 Event 对象写入 Elasticsearch。
  • process 方法中:
    • Event 对象的 userurl 字段存入 HashMap
    • 使用 Requests.indexRequest() 创建一个索引请求。
    • 指定索引名称(clicks)、数据源(data)和类型(event)。
    • 通过 requestIndexer.add(request) 发送请求。
(4) 添加 Elasticsearch Sink
复制代码
data.addSink(new ElasticsearchSink.Builder[Event](hosts, esFun).build())
  • 使用 ElasticsearchSink.Builder 构建 Elasticsearch Sink。
  • 将 Sink 添加到数据流中。
(5) 执行任务
复制代码
env.execute("sinkRedis")
  • 启动 Flink 流处理任务,任务名称为 sinkRedis

3. 验证命令

  • 查看 Elasticsearch 索引

    bash

    复制代码
    curl 'localhost:9200/_cat/indices?v'

    检查 clicks 索引是否创建成功。

  • 查询索引数据

    bash

    复制代码
    curl 'localhost:9200/clicks/_search?pretty'

    查看 clicks 索引中的数据。

相关推荐
GUET_一路向前2 小时前
【git工作常用指令】
大数据·git·elasticsearch
Elasticsearch3 小时前
通过 Elastic MCP Server 将 Cursor 连接到生产日志
elasticsearch
身如柳絮随风扬4 小时前
Spring Boot + Spring Cloud 集成 Elasticsearch:从零搭建企业级搜索服务
spring boot·elasticsearch·spring cloud
半部论语5 小时前
CentOS7 + pyenv 安装 Python 3.11 完整指南)
大数据·elasticsearch·python3.11
fan_music5 小时前
git使用教程
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客6 小时前
通过受管控的控制平面加速商品陈列优化
大数据·数据库·人工智能·elasticsearch·搜索引擎·平面·ai
逸Y 仙X6 小时前
文章十五:ElasticSearch 运用ingest加工索引数据
java·大数据·elasticsearch·搜索引擎·全文检索
Elastic 中国社区官方博客6 小时前
Kibana 中的查询活动:用于长时间运行搜索的实时控制塔
大数据·运维·elasticsearch·搜索引擎·全文检索·kibana
byoass7 小时前
企业云盘全文检索实战:Elasticsearch集成与分布式搜索
网络·分布式·安全·elasticsearch·云计算·全文检索
Volunteer Technology8 小时前
Elasticsearch分布式原理
大数据·分布式·elasticsearch