【SparkML系列2】DataSource读取图片数据

DataSource(数据源)

在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。

###Image data source(图像数据源)

该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:"image",包含存储为图像模式的图像数据。图像列的模式是:

origin:StringType(表示图像的文件路径)

height:IntegerType(图像的高度)

width:IntegerType(图像的宽度)

nChannels:IntegerType(图像通道的数量)

mode:IntegerType(与 OpenCV 兼容的类型)

data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)

scala 复制代码
import org.apache.spark.sql.SparkSession

/**
 * @description TODO
 * @date 2024/1/31 15:30
 * @author by fangwen1
 */
object ImageDataSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName("ImageDataSource")
      .getOrCreate()
    //.format("image") 告诉 Spark 读取器数据是以图像格式存储的,而 .option("dropInvalid", true) 设置了一个选项,指示读取器在加载过程中丢弃任何无效的图像文件。
    val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")

    df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)


    //.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的,而 .option("numFeatures", "780") 设置了一个选项,指定特征向量的数量为 780。
    val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")
    df1.show()
  }
}
相关推荐
麦麦大数据6 天前
F052pro 基于spark推荐的中医古籍知识图谱可视化推荐系统|spark mlib|hadoop|docker集群
docker·spark-ml·spark·知识图谱·可是还·中医推荐·ehcarts
叫我:松哥9 天前
基于Spark智能推荐算法的农业作物推荐系统,推荐算法使用Spark ML风格推荐引擎
大数据·python·机器学习·spark-ml·spark·flask·推荐算法
Hello.Reader1 个月前
Spark MLlib 基础统计模块相关性、卡方检验与向量汇总
spark-ml
Yuyang_Leo2 个月前
Spark Core vs Spark MLlib:从数据处理到机器学习的完整指南
人工智能·机器学习·spark-ml
GG向前冲3 个月前
【大数据】Spark MLlib 机器学习流水线搭建
大数据·机器学习·spark-ml
Thomas21434 个月前
sparkml pipeline 使用案例
spark-ml
Thomas21434 个月前
sparkml 多列共享labelEncoder pipeline方案
spark-ml
Thomas21434 个月前
sparkml 多列共享labelEncoder
javascript·ajax·spark-ml
悟乙己4 个月前
在 PySpark ML 中LightGBM比XGBoost更好(二)
spark-ml
Lenskit4 个月前
使用pyspark对上百亿行的hive表生成稀疏向量
python·spark-ml·spark