spark3.3.x处理excel数据

环境:

spark3.3.x

scala2.12.x
引用:

spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar

或项目里配置pom.xml

scala 复制代码
<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency>
    <groupId>com.crealytics</groupId>
    <artifactId>spark-excel_2.12</artifactId>
    <version>3.3.1_0.18.5</version>
</dependency>

代码:

1、直接使用excel文件第一行作为schema

scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "true") // 该版本的包将useHeader改成了header
     .load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

scala 复制代码
// 自定义schema
val schema = StructType(List(
    StructField("uid", StringType, nullable = true),
    StructField("name", StringType, nullable = true)
))
scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "false") // 使用自定义schema,所以设置为false
     .option("dataAddress", "'Sheet1'!A2:B2") // 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列)
     .schema(schema)
     .load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常

相关推荐
petrel20152 小时前
【Spark】深度魔改 Spark 源码:打破静态限制,实现真正的运行时动态扩缩容
大数据·分布式·spark
C_心欲无痕3 小时前
使用 XLSX.js 导出 Excel 文件
开发语言·javascript·excel
ekkcole16 小时前
easyexcel2.2.10对本地文件的指定行或指定列添加样式
excel·easyexcel
城数派16 小时前
1901-2024年我国省市县三级逐年潜在蒸散发数据(Shp/Excel格式)
excel
门思科技16 小时前
ThinkLink批量操作功能详解:如何通过Excel高效管理物联网设备与配置
物联网·excel
scx_link18 小时前
使用 Excel 中的 “快速填充“
excel
蜜汁小强18 小时前
Vim简单配置: 加点颜色加点格式
编辑器·vim·excel
徒手千行代码无bug19 小时前
填充Excel
excel
认真学GIS19 小时前
日尺度地下水水位!全国11897个地下水动态监测站点2005-2021年日尺度地下水水位(地下水埋深)(EXCEL格式)数据
服务器·前端·excel
zml.~1 天前
Spark 大数据分析:从原理到实战的一站式指南
大数据·数据分析·spark