【SparkML系列2】DataSource读取图片数据

DataSource(数据源)

在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。

###Image data source(图像数据源)

该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:"image",包含存储为图像模式的图像数据。图像列的模式是:

origin:StringType(表示图像的文件路径)

height:IntegerType(图像的高度)

width:IntegerType(图像的宽度)

nChannels:IntegerType(图像通道的数量)

mode:IntegerType(与 OpenCV 兼容的类型)

data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)

scala 复制代码
import org.apache.spark.sql.SparkSession

/**
 * @description TODO
 * @date 2024/1/31 15:30
 * @author by fangwen1
 */
object ImageDataSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName("ImageDataSource")
      .getOrCreate()
    //.format("image") 告诉 Spark 读取器数据是以图像格式存储的,而 .option("dropInvalid", true) 设置了一个选项,指示读取器在加载过程中丢弃任何无效的图像文件。
    val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")

    df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)


    //.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的,而 .option("numFeatures", "780") 设置了一个选项,指定特征向量的数量为 780。
    val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")
    df1.show()
  }
}
相关推荐
程序猿阿伟2 个月前
《深度探秘:Java构建Spark MLlib与TensorFlow Serving混合推理流水线》
java·spark-ml·tensorflow
武子康2 个月前
大数据-276 Spark MLib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树
大数据·人工智能·算法·机器学习·语言模型·spark-ml·boosting
武子康2 个月前
大数据-277 Spark MLib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现
大数据·人工智能·算法·机器学习·ai·spark-ml·boosting
武子康3 个月前
大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting
大数据·算法·机器学习·ai·语言模型·spark-ml·集成学习
武子康3 个月前
大数据-274 Spark MLib - 基础介绍 机器学习算法 剪枝 后剪枝 ID3 C4.5 CART
大数据·人工智能·算法·机器学习·语言模型·spark-ml·剪枝
武子康3 个月前
大数据-273 Spark MLib - 基础介绍 机器学习算法 决策树 分类原则 分类原理 基尼系数 熵
大数据·人工智能·算法·决策树·机器学习·spark-ml
杰克逊的日记3 个月前
Spark MLlib的运维与管理
大数据·spark-ml
努力的搬砖人.5 个月前
Spark相关面试题
java·面试·spark-ml·spark
一条测试老狗5 个月前
【机器学习】使用Python Spark MLlib进行预测模型训练
spark-ml
eso19836 个月前
Spark MLlib使用流程简介
python·算法·spark-ml·推荐算法