DataSource(数据源)
在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。
###Image data source(图像数据源)
该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:"image",包含存储为图像模式的图像数据。图像列的模式是:
origin:StringType(表示图像的文件路径)
height:IntegerType(图像的高度)
width:IntegerType(图像的宽度)
nChannels:IntegerType(图像通道的数量)
mode:IntegerType(与 OpenCV 兼容的类型)
data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)
scala
import org.apache.spark.sql.SparkSession
/**
* @description TODO
* @date 2024/1/31 15:30
* @author by fangwen1
*/
object ImageDataSource {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder
.master("local[*]")
.appName("ImageDataSource")
.getOrCreate()
//.format("image") 告诉 Spark 读取器数据是以图像格式存储的,而 .option("dropInvalid", true) 设置了一个选项,指示读取器在加载过程中丢弃任何无效的图像文件。
val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")
df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)
//.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的,而 .option("numFeatures", "780") 设置了一个选项,指定特征向量的数量为 780。
val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")
df1.show()
}
}