spark3.3.x处理excel数据

环境:

spark3.3.x

scala2.12.x
引用:

spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar

或项目里配置pom.xml

scala 复制代码
<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency>
    <groupId>com.crealytics</groupId>
    <artifactId>spark-excel_2.12</artifactId>
    <version>3.3.1_0.18.5</version>
</dependency>

代码:

1、直接使用excel文件第一行作为schema

scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "true") // 该版本的包将useHeader改成了header
     .load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

scala 复制代码
// 自定义schema
val schema = StructType(List(
    StructField("uid", StringType, nullable = true),
    StructField("name", StringType, nullable = true)
))
scala 复制代码
val df = spark.read
     .format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以
     .option("header", "false") // 使用自定义schema,所以设置为false
     .option("dataAddress", "'Sheet1'!A2:B2") // 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列)
     .schema(schema)
     .load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常

相关推荐
biuyyyxxx13 分钟前
Power Query功能区 - 主页
笔记·学习·excel
CDA数据分析师干货分享1 小时前
【经验贴】机械工程本科,CDA数据分析师学习及转行经验
数据挖掘·数据分析·excel·cda证书·cda数据分析师
小邓睡不饱耶4 小时前
东方财富股吧话题爬虫实现:从接口请求到Excel数据落地
爬虫·excel
hf2000124 小时前
零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践
大数据·分布式·spark·lakehouse
talen_hx2966 小时前
《零基础入门Spark》学习笔记 Day 04
大数据·笔记·学习·spark
勤劳的进取家6 小时前
Excel 公式技术手册
数据库·excel
城数派6 小时前
我国省市县三级的餐饮服务设施数量(57类餐饮服务/Excel/Shp格式)2025年
arcgis·信息可视化·数据分析·excel
weixin_404679316 小时前
vscode 的csv,excel查看工具
excel
好菇娘の当自强6 小时前
Excel下载模板空白问题排查:测试环境装fontconfig即修复深度剖析
excel
梦因you而美6 小时前
Python自动化复制Excel sheet表(openpyxl+win32com双方案,完美保留格式)
python·自动化·excel·win32com·openpyxl