前言
在日常的工作中,表格内的工具是非常方便的x,但是当表格变得非常多的时候,就需要一些特定的处理。Excel作为功能强大的数据处理软件,广泛应用于各行各业,从企业管理到数据分析,可谓无处不在。然而,面对大型且复杂的数据,Excel的处理能力可能力不从心。
对此,我们可借助Apache Spark这一分布式计算框架,凭借其强大的计算与数据处理能力,快速有效地处理Excel数据。这些数据进行一个分析,整理,筛选,排序。分析整理有用的内容。
操作
创建一个spark项目,在IntelliJ IDEA中创建Spark项目时,默认的目录结构如下:
project-root/
│
├── src/
│ ├── main/
│ │ ├── java/
│ │ │ └── (Java source files)
│ │ └── scala/
│ │ └── (Scala source files)
│ └── test/
│ ├── java/
│ │ └── (Test Java source files)
│ └── scala/
│ └── (Test Scala source files)
├── resources/
│ └── (Resource files)
└── target/
└── (Compiled output and build artifacts)
导入包
在build.sbt中添加操作文件的包
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % sparkVersion,
"org.apache.spark" %% "spark-sql" % sparkVersion,
"org.apache.spark" %% "spark-mllib" % sparkVersion,
"org.apache.spark" %% "spark-streaming" % sparkVersion,
"com.norbitltd" %% "spoiwo_2.12" % "1.4.1",
"com.crealytics" %% "spark-excel" % "0.13.7",
"com.monitorjbl" %% "xlsx-streamer" % "2.1.0"
)
测试数据
|--------|-----|
| name | age |
| Mic | 1 |
| Andy | 3 |
| Steven | 1 |
首先
使用Spark读取Excel文件十分简便。只需在DataFrame API中指定文件路径及格式,Spark即可自动导入Excel文件并将其转成DataFrame,进而展开数据处理和分析。
代码示例
Spark不但提供多样的数据处理方式,更在DataFrame API中支持筛选、聚合和排序等操作。此外,内置丰富的数据处理函数和操作符使处理Excel数据更为便捷。
package com.example.spark
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
object SparkTest {
def main(args: Array[String]): Unit = {
//scala版本
val sparkConf = new SparkConf()
sparkConf.setMaster("local") //本地单线程运行
sparkConf.setAppName("testJob")
// val sc = new SparkContext(sparkConf)
val spark = SparkSession.builder().config(sparkConf)
.appName("Excel Demo")
.getOrCreate()
// 读取 Excel 文件
val df = spark.read
.format("com.crealytics.spark.excel")
.option("dataAddress", "'Sheet2'!A1:B2") // 可选,设置选择数据区域 例如 A1:C2。
.option("useHeader", "false") // 必须,是否使用表头,false的话自己命名表头(_c0),true则第一行为表头
.option("treatEmptyValuesAsNulls", "true") // 可选, 是否将空的单元格设置为null ,如果不设置为null 遇见空单元格会报错 默认t: true
.option("inferSchema", "true") // 可选, default: false
//.option("addColorColumns", "true") // 可选, default: false
//.option("timestampFormat", "yyyy-mm-dd hh:mm:ss") // 可选, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
//.option("excerptSize", 6) // 可选, default: 10. If set and if schema inferred, number of rows to infer schema from
//.option("workbookPassword", "pass") // 可选, default None. Requires unlimited strength JCE for older JVMs====
//.option("maxRowsInMemory", 20) // 可选, default None. If set, uses a streaming reader which can help with big files====
.schema(schema) // 可选, default: Either inferred schema, or all columns are Strings
// .option("header", "true")
.load("path/to/excel/file.xlsx")
// 显示 DataFrame 的内容
df.show()
// +-------+---+
// | name|age|
// +-------+---+
// | Mic| 1|
// | Andy| 3|
// | Steven| 1|
// +-------+---+
// 将 DataFrame 写入 Excel 文件
df.write
.format("com.crealytics.spark.excel")
.option("dataAddress", "'Sheet'!A1:B2")
.option("useHeader", "true")
//.option("dateFormat", "yy-mmm-d") // Optional, default: yy-m-d h:mm
//.option("timestampFormat", "mm-dd-yyyy hh:mm:ss") // Optional, default: yyyy-mm-dd hh:mm:ss.000
.mode("append") // Optional, default: overwrite.
.option("header", "true")
.save("path/to/save/excel/file.xlsx")
}
}
数据处理结束后,可将结果保存在全新Excel文件或其他格式文件中。借助DataFrame API,无论保存在本地文件系统还是云端,均能轻松实现。保留数据亦可依照需求选择不同输出格式,如CSV,XLSX等。
总结一下
虽然仅处理基础数据,但在集群环境下,Spark展现出优秀的大规模数据处理能力。无论海量Excel数据还是复杂的结构化数据,都在Spark协助下,能轻松应对并满足各种数据处理与分析任务。
借助Apache Spark处理Excel文件,充分发挥分布式计算潜能,可让数据处理与分析过程更为高效出色,同时也极大提升数据处理效率和准确性。希望本文能让您对Spark处理Excel有更深入了解,在实践中更好地应用。
引用
https://github.com/crealytics/spark-excel
最后
点赞关注评论一键三连,每周分享技术干货、开源项目、实战经验、国外优质文章翻译等,您的关注将是我的更新动力