Flink数据流高效写入HBase实战

目录

[1. 代码结构](#1. 代码结构)

代码解析

[(1) 主程序入口](#(1) 主程序入口)

[(2) 定义数据流](#(2) 定义数据流)

[(3) 自定义 HBase Sink](#(3) 自定义 HBase Sink)

[(4) 初始化 HBase 连接](#(4) 初始化 HBase 连接)

[(5) 写入数据到 HBase](#(5) 写入数据到 HBase)

[(6) 关闭 HBase 连接](#(6) 关闭 HBase 连接)

[(7) 执行任务](#(7) 执行任务)


这段代码展示了如何使用 Apache Flink 将数据流写入 HBase,并使用了 RichSinkFunction 来实现自定义的 Sink 逻辑。以下是对代码的详细解析和说明:

1. 代码结构

  • 包声明package sink

    定义了代码所在的包。

  • 导入依赖

    导入了必要的 Flink 和 HBase 相关类库,包括:

    • org.apache.flink.configuration.Configuration:Flink 配置类。
    • org.apache.flink.streaming.api.functions.sink.{RichSinkFunction, SinkFunction}:Flink 的 Sink 相关类。
    • org.apache.flink.streaming.api.scala._:Flink 流处理 API。
    • org.apache.hadoop.hbase:HBase 相关类库。
  • sinkToHbase 对象

    主程序入口,包含 Flink 流处理逻辑和 HBase Sink 的配置。

Scala 复制代码
package sink

import java.nio.charset.StandardCharsets

import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.functions.sink.{RichSinkFunction, SinkFunction}
import org.apache.flink.streaming.api.scala._
import org.apache.hadoop.conf
import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
import org.apache.hadoop.hbase.client.{Connection, ConnectionFactory, Put}

/**
 *
 * @PROJECT_NAME: flink1.13
 * @PACKAGE_NAME: sink
 * @author: 赵嘉盟-HONOR
 * @data: 2023-11-20 15:37
 * @DESCRIPTION
 *
 */
object sinkToHbase {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val data = env.fromElements(
      Event("Mary", "./home", 100L),
      Event("Sum", "./cart", 500L),
      Event("King", "./prod", 1000L),
      Event("King", "./root", 200L)
    )

    data.addSink(new RichSinkFunction[Event] {
      var conn:Connection=null
      override def open(parameters: Configuration): Unit = {
        val conf = HBaseConfiguration.create()
        conf.set("","")
        conn=ConnectionFactory.createConnection(conf)
      }
      override def invoke(value: Event, context: SinkFunction.Context): Unit = {
        val table=conn.getTable(TableName.valueOf("test"))
        val put = new Put("rowkey".getBytes(StandardCharsets.UTF_8))
        put.addColumn(
          "info".getBytes(StandardCharsets.UTF_8),
          "username".getBytes(StandardCharsets.UTF_8),
          value.user.getBytes(StandardCharsets.UTF_8))
        table.put(put)
        table.close()
      }
      override def close(): Unit = conn.close()
    })
    env.execute("sinkToHbase")
  }
}

getTable:指定命名空间与写入表名,用分号分割

Put:指定rowkey

addColumn:指定列族,列名,值

代码解析

(1) 主程序入口
Scala 复制代码
def main(args: Array[String]): Unit = {
  val env = StreamExecutionEnvironment.getExecutionEnvironment
  • 创建 Flink 流处理环境 StreamExecutionEnvironment
(2) 定义数据流
Scala 复制代码
val data = env.fromElements(
  Event("Mary", "./home", 100L),
  Event("Sum", "./cart", 500L),
  Event("King", "./prod", 1000L),
  Event("King", "./root", 200L)
)
  • 使用 fromElements 方法生成一个包含 4 个 Event 对象的流。
(3) 自定义 HBase Sink
Scala 复制代码
data.addSink(new RichSinkFunction[Event] {
  var conn: Connection = null
  • 使用 RichSinkFunction 实现自定义的 Sink 逻辑。
  • 定义 conn 变量用于存储 HBase 连接。
(4) 初始化 HBase 连接
Scala 复制代码
override def open(parameters: Configuration): Unit = {
  val conf = HBaseConfiguration.create()
  conf.set("", "") // 设置 HBase 配置
  conn = ConnectionFactory.createConnection(conf)
}
  • open 方法中初始化 HBase 连接:
    • 创建 HBase 配置对象 HBaseConfiguration
    • 设置 HBase 配置(未填写具体配置)。
    • 创建 HBase 连接 Connection
(5) 写入数据到 HBase
Scala 复制代码
override def invoke(value: Event, context: SinkFunction.Context): Unit = {
  val table = conn.getTable(TableName.valueOf("test"))
  val put = new Put("rowkey".getBytes(StandardCharsets.UTF_8))
  put.addColumn(
    "info".getBytes(StandardCharsets.UTF_8),
    "username".getBytes(StandardCharsets.UTF_8),
    value.user.getBytes(StandardCharsets.UTF_8))
  table.put(put)
  table.close()
}
  • invoke 方法中将数据写入 HBase:
    • 获取 HBase 表 test
    • 创建 Put 对象,设置行键为 rowkey
    • 添加列族 info 和列 username,值为 Event 对象的 user 字段。
    • 将数据写入 HBase 表。
    • 关闭表连接。
(6) 关闭 HBase 连接
Scala 复制代码
override def close(): Unit = conn.close()
  • close 方法中关闭 HBase 连接。
(7) 执行任务
Scala 复制代码
env.execute("sinkToHbase")
  • 启动 Flink 流处理任务,任务名称为 sinkToHbase
相关推荐
GEO索引未来16 小时前
国内首部GEO可信传播标准立项通过/DeepSeek-V4 正式上线并开源/Open AI、Google继续推进AI广告标准化
大数据·人工智能·gpt·ai·chatgpt·开源
金融小师妹17 小时前
AI多模态宏观建模视角:超级央行周触发“政策—数据—预期”耦合重估框架
大数据·人工智能·逻辑回归·能源
FIN666817 小时前
底部蓄力,静待花开——清越科技的韧性与曙光
大数据·人工智能·物联网
半部论语17 小时前
CentOS7 + pyenv 安装 Python 3.11 完整指南)
大数据·elasticsearch·python3.11
Gofarlic_OMS17 小时前
UG/NX许可证管理高频技术问题解答汇编
java·大数据·运维·服务器·汇编·人工智能
AI周红伟17 小时前
周红伟:OpenClaw安全防控:OpenClaw+Skills+私有大模型安全部署、实操和企业应用实操
大数据·人工智能·深度学习·安全·copilot·openclaw
fan_music17 小时前
git使用教程
大数据·elasticsearch·搜索引擎
互联网推荐官17 小时前
上海物联网应用开发技术路径拆解:从协议选型到平台架构的工程实践
大数据·人工智能·软件工程
YaBingSec18 小时前
玄机网络安全靶场:Apache HTTPD 解析漏洞(CVE-2017-15715)WP
java·笔记·安全·web安全·php·apache
goyeer18 小时前
【ITIL】ITIL服务管理的四个维度
大数据·运维·信息化·自动运维·itil