目录

spark3.3.x处理excel数据

环境:

spark3.3.x

scala2.12.x
引用:

spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar

或项目里配置pom.xml

scala 复制代码
<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency>
    <groupId>com.crealytics</groupId>
    <artifactId>spark-excel_2.12</artifactId>
    <version>3.3.1_0.18.5</version>
</dependency>

代码:

1、直接使用excel文件第一行作为schema

scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "true") // 该版本的包将useHeader改成了header
     .load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

scala 复制代码
// 自定义schema
val schema = StructType(List(
    StructField("uid", StringType, nullable = true),
    StructField("name", StringType, nullable = true)
))
scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "false") // 使用自定义schema,所以设置为false
     .option("dataAddress", "'Sheet1'!A2:B2") // 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列)
     .schema(schema)
     .load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
想你依然心痛6 小时前
Spark大数据分析与实战笔记(第四章 Spark SQL结构化数据文件处理-03)
笔记·数据分析·spark
黄雪超10 小时前
核心知识—— RDD常用算子之数据转换
大数据·spark
Enti7c10 小时前
数据一键导出为 Excel 文件
前端·javascript·excel·jquery
pk_xz12345613 小时前
完整的Python程序,它能够根据两个Excel表格(假设在同一个Excel文件的不同sheet中)中的历史数据来预测未来G列数字
开发语言·python·excel
码界筑梦坊14 小时前
基于Spark的抖音数据分析热度预测系统
大数据·信息可视化·数据分析·spark·毕业设计·个性化推荐
风舞红枫16 小时前
WPS宏开发手册——Excel实战
excel·wps
Oo_Amy_oO16 小时前
Airflow+Spark/Flink vs. Kettle
大数据·flink·spark
乘风!1 天前
Java导出excel,表格插入pdf附件,以及实现过程中遇见的坑
java·pdf·excel
今天我又学废了1 天前
Spark,HDFS概述
大数据·hdfs·spark
北随琛烬入1 天前
Spark(10)配置Hadoop集群-集群配置
java·hadoop·spark