4.2.1 Spark SQL数据源 - 初探默认数据源格式

本节实战围绕 Spark SQL 的默认数据源格式 展开,核心是理解当未显式指定 .format() 时,Spark 如何默认使用 Parquet。首先介绍了 spark.sql.sources.default 配置项及其在 spark-defaults.conf 中的设置方法。随后通过一系列命令演示了完整的端到端流程:从查看和上传已有的 users.parquet 示例文件到 HDFS,到在 Spark Shell 中使用 spark.read.load()(无 .format())成功读取该 Parquet 文件并展示其 Schema 和内容,再到使用 df.write.save()(无 .format())将其以 Parquet 格式写出。课堂练习部分则引导用户将文本文件 student.txt 通过 Scala 代码手动处理成 DataFrame 并保存为 student.parquet,再读取验证,最后还在 IntelliJ IDEA 中创建了一个完整的 Maven + Scala 项目,通过编程方式读取 Parquet 文件、执行 SQL 过滤并保存结果,全面展示了 Parquet 作为默认格式的读写实践。

相关推荐
howard200515 天前
4.7 Spark SQL函数分类与应用
开窗函数·spark sql·自定义函数·内置函数
howard200521 天前
4.2.2 Spark SQL数据源 - 手动指定数据源格式
spark sql·手动指定数据源格式
howard200522 天前
4.1 Spark SQL数据帧与数据集
数据集·spark sql·数据帧
AllData公司负责人3 个月前
AIIData数据中台演示干货!实时开发平台(StreamPark) Spark SQL可视化实操流程
可视化·spark sql·streampark