13 pyflink/scala 进行 csv 文件的批处理

前言

这是 最近有一个 来自于朋友的 pyflink 的使用需求

然后 看到了 很多 pyflink 这边的和 使用 java, scala 的 api 使用上的很多差异

这里使用的 pyflink 版本是 1.16.3

pyflink 1.16.3 中批处理相关貌似要使用 Table API 来进行处理, datastreaming api 使用多多少少存在问题

但是 这个如果是在 java, scala 中写一段 批处理的脚本就简单的多了

pyflink 1.16.3 这里, 要使用 Table API 进行处理

这里整体的过程, 也是 构建 Source, Transformation, Sink 然后进行执行

flink-sql 会转换为 flink job 进行业务处理, sql 中就包含了 转换的处理

复制代码
from pyflink.table import EnvironmentSettings, TableEnvironment

settings = EnvironmentSettings.new_instance().in_batch_mode().build()

t_env = TableEnvironment.create(settings)
t_env.get_config().set("parallelism.default", "1")

t_env.execute_sql("""
    CREATE TABLE mySource (
        country STRING,
        year_field STRING,
        sex STRING
    ) WITH (
        'connector' = 'filesystem',
        'format' = 'csv',
        'path' = '/Users/jerry/Tmp/17_pyspark_csv/suicide_clear_3fields.csv'
    )
""")

t_env.execute_sql("""
    CREATE TABLE mySink (
        updated_country STRING,
        updated_year STRING,
        counter BIGINT
    ) WITH (
        'connector' = 'filesystem',
        'format' = 'csv',
        'path' = '/Users/jerry/Tmp/17_pyspark_csv/output_by_flink_sql'
    )
""")


t_env.execute_sql("""
    INSERT INTO mySink
    SELECT country as updated_country, year_field AS updated_year, count(*) as counter
    FROM mySource
    WHERE year_field = '1987'
    group by country, year_field
""").wait()

最终执行结果如下, 实现了 数据的批处理

使用 scala 来进行数据的批处理

可以使用大量 api, 不仅仅局限于 sql, 处理方式上面 更加抽象, 灵活一些

可能是 程序员更加偏爱的处理方式, flink-sql 稍微简单一些, 处理的场景 也有一些局限

复制代码
package com.hx.test

import org.apache.flink.api.scala.{ExecutionEnvironment, _}
import org.apache.flink.configuration.Configuration

/**
  * Test01WordCount
  *
  * @author Jerry.X.He <970655147@qq.com>
  * @version 1.0
  * @date 2021-04-02 18:07
  */
object Test04ReadCsvThenGroup {

  def main(args: Array[String]): Unit = {

    // 创建一个批处理的执行环境
    val conf = new Configuration()
    conf.setString("taskmanager.numberOfTaskSlots", "3")
    conf.setString("rest.bind-port", "8081")
    conf.setString("parallelism.default", "1")
    val env = ExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    // 从文件中读取数据
    val inputPath = "/Users/jerry/Tmp/17_pyspark_csv/suicide_clear.csv"
    val inputDs = env.readTextFile(inputPath)


    val result = inputDs
      .filter(line => !line.contains("year,"))
      .map(line => {
        val splits = line.split("\\s*,\\s*")
        Person(splits(0), Integer.parseInt(splits(1)), splits(2), 1)
      }
      )
      .filter(person => {
        person.year == 1987
      })
      .map(person => {
        (person.country, person)
      })
      .groupBy(0)
      .reduce((v1, v2) => {
        v1._2.count = v1._2.count + v2._2.count
        v1
      })
      .map(tuple => tuple._2)

    // 打印输出
    result.print()

    System.in.read()

  }

  case class Person(country: String, year: Int, sex: String, var count: Int) {
  }

}

输出结果如下

相关推荐
老夫的码又出BUG了5 分钟前
预测式AI与生成式AI
人工智能·科技·ai
AKAMAI13 分钟前
AI 边缘计算:决胜未来
人工智能·云计算·边缘计算
flex888820 分钟前
输入一个故事主题,使用大语言模型生成故事视频【视频中包含大模型生成的图片、故事内容,以及音频和字幕信息】
人工智能·语言模型·自然语言处理
TTGGGFF28 分钟前
人工智能:大语言模型或为死胡同?拆解AI发展的底层逻辑、争议与未来方向
大数据·人工智能·语言模型
张艾拉 Fun AI Everyday30 分钟前
从 ChatGPT 到 OpenEvidence:AI 医疗的正确打开方式
人工智能·chatgpt
mwq301231 小时前
位置编码的技术演进线路:从绝对到相对,再到几何一致性
人工智能
mwq301231 小时前
外推性-位置编码的阿喀琉斯之踵
人工智能
DP+GISer2 小时前
基于站点数据进行遥感机器学习参数反演-以XGBOOST反演LST为例(附带数据与代码)试读
人工智能·python·机器学习·遥感与机器学习
boonya2 小时前
Langchain 和LangGraph 为何是AI智能体开发的核心技术
人工智能·langchain
元宇宙时间2 小时前
DID联盟:Web3数字主权基础设施的战略构建
人工智能·web3·区块链