4.2.1 Spark SQL数据源 - 初探默认数据源格式

本节实战围绕 Spark SQL 的默认数据源格式 展开,核心是理解当未显式指定 .format() 时,Spark 如何默认使用 Parquet。首先介绍了 spark.sql.sources.default 配置项及其在 spark-defaults.conf 中的设置方法。随后通过一系列命令演示了完整的端到端流程:从查看和上传已有的 users.parquet 示例文件到 HDFS,到在 Spark Shell 中使用 spark.read.load()(无 .format())成功读取该 Parquet 文件并展示其 Schema 和内容,再到使用 df.write.save()(无 .format())将其以 Parquet 格式写出。课堂练习部分则引导用户将文本文件 student.txt 通过 Scala 代码手动处理成 DataFrame 并保存为 student.parquet,再读取验证,最后还在 IntelliJ IDEA 中创建了一个完整的 Maven + Scala 项目,通过编程方式读取 Parquet 文件、执行 SQL 过滤并保存结果,全面展示了 Parquet 作为默认格式的读写实践。

相关推荐
howard200521 小时前
4.1 Spark SQL数据帧与数据集
数据集·spark sql·数据帧
AllData公司负责人2 个月前
AIIData数据中台演示干货!实时开发平台(StreamPark) Spark SQL可视化实操流程
可视化·spark sql·streampark
linweidong10 个月前
深入剖析 Spark Shuffle 机制:从原理到实战优化
大数据·分布式·spark·spark sql·数据开发·shuffle·数据倾斜
howard20051 年前
4.2.5 Spark SQL 分区自动推断
spark sql·自动分区推断
howard20051 年前
4.2.4 Spark SQL 数据写入模式
spark sql·数据写入模式
howard20051 年前
4.8.1 利用Spark SQL实现词频统计
spark sql·词频统计
howard20051 年前
4.8.4 利用Spark SQL实现分组排行榜
spark sql·分组排行榜
howard20051 年前
4.2.3 Spark SQL 手动指定数据源
spark sql·手动指定数据源
howard20051 年前
4.1.1 Spark SQL概述
数据集·spark sql·数据帧