spark组件-spark sql-读取数据

支持的数据源类型

Spark SQL 内置支持丰富的数据格式和外部系统,核心数据源包括:

‌列式存储‌ :Parquet(默认格式)、ORC
‌文本格式‌ :JSON、CSV、TXT
‌关系数据库‌ :通过 JDBC 连接 MySQL、PostgreSQL 等
‌大数据生态‌ :Hive 表、HDFS 文件

其他来源‌ :Avro、XML(通常需要额外库)

每种数据源在性能上有显著差异,例如 Parquet 采用列式存储,在分析型查询中性能最优。

例子

java 复制代码
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class a_SparkSql_Env {
    public static void main(String[] args) {

        SparkSession sparkSession = SparkSession.builder().master("local").appName("sparksql").getOrCreate();

        Dataset<Row> json = sparkSession.read().option("spark.sql.adaptive.enabled",true).json("input/user.json");

        json.createOrReplaceTempView("user");

        json.select("age").show();

//        String sql = "select age from user";
//        Dataset<Row> df = sparkSession.sql(sql);


//        df.show();

        sparkSession.close();
    }
}

更多例子参见官网:spark sql数据源

配置优化策略‌:

‌并行度调整‌ :设置 spark.sql.shuffle.partitions 优化 shuffle 性能

内存缓存‌ :对频繁访问的表使用 spark.catalog.cacheTable() 或 dataFrame.cache()
数据源特定优化‌:如 Parquet 的谓词下推、ORC 的索引使用

读取性能调优技巧‌:

启用 spark.sql.adaptive.enabled=true 实现自适应查询执行

设置 spark.sql.files.maxPartitionBytes 控制分区大小

使用 spark.sql.autoBroadcastJoinThreshold 优化小表广播

相关推荐
百***79461 小时前
MySQL数据库(SQL分类)
数据库·sql·mysql
中国国际健康产业博览会1 小时前
2026第35届中国国际健康产业博览会探索健康与科技的完美结合!
大数据·人工智能
Lansonli2 小时前
大数据Spark(七十三):Transformation转换算子glom和foldByKey使用案例
大数据·分布式·spark
中电金信2 小时前
2025新加坡金融科技节:看AI驱动的金融转型策略与“中国方案”
大数据·人工智能·金融
北i3 小时前
TiDB 关联子查询去关联优化实战案例与原理深度解析
java·数据库·sql·tidb
凌波粒4 小时前
SpringMVC基础教程(3)--SSM框架整合
java·sql·spring·intellij-idea·mybatis
武子康5 小时前
Java-174 FastFDS 从单机到分布式文件存储:实战与架构取舍
java·大数据·分布式·性能优化·系统架构·dfs·fastdfs
aitoolhub6 小时前
重塑机器人未来:空间智能驱动产业智能化升级
大数据·人工智能·深度学习·机器学习·机器人·aigc
ZhengEnCi6 小时前
S2C-SQL DELETE 删除数据完全指南-99%的人忘记WHERE子句,SQL高手却这样写:从基础语法到多表关联的数据删除利器
sql
1***Q7847 小时前
SQL Future
数据库·sql