Spark SQL架构及高级用法

Spark SQL 架构概述

架构核心组件

  • API层(用户接口)

    • 输入方式:SQL查询;DataFrame/Dataset API。
    • 统一性: 所有接口最终转换为逻辑计划树(Logical Plan),进入优化流程。
  • 编译器层(Catalyst 优化器)

    • 核心引擎: 基于规则的优化器(Rule-Based Optimizer, RBO )与成本优化器(Cost-Based Optimizer, CBO)。

    • 处理流程:

      阶段 输入 输出 关键动作
      解析 SQL/API 操作 未解析逻辑计划 构建语法树(AST),校验语法正确性
      分析 未解析逻辑计划 解析后逻辑计划 绑定元数据(表/列名、数据类型)、解析函数、检查语义正确性
      优化 解析后逻辑计划 优化后逻辑计划 应用优化规则(如谓词下推、列剪裁、常量折叠、连接重排序)
    • 优化规则示例:

      Predicate Pushdown(谓词下推):将过滤条件推至数据源层,减少 I/O。

      Column Pruning(列裁剪):仅读取查询涉及的列,减少数据传输。

  • 执行计划层(Planner)

    • 物理计划生成:将优化后的逻辑计划转换为物理计划(Physical Plan)

    • 策略匹配: 根据数据分布、资源情况选择最优执行策略(如 BroadcastHashJoin vs SortMergeJoin)。

    • 物理优化:

      全阶段代码生成(Whole-Stage Codegen):将多个操作合并为单个 JVM 函数,减少虚函数调用开销。

      谓词下推至数据源:支持 Parquet/ORC 等格式的过滤条件下推。

  • 执行引擎层(Tungsten + Spark Core)

    • Tungsten 引擎:

      堆外内存管理:避免 JVM GC 开销,直接操作二进制数据。

      向量化计算:按列处理数据,提升 CPU 缓存命中率。

    • 分布式执行:

      物理计划转为 RDD DAG → 分解为 Stage → 调度 TaskExecutor 并行执行。

      利用 Spark Core 的血缘(Lineage)、内存管理、Shuffle 服务。

关键性能技术

  • Catalyst 优化器
    • 动态优化: 在逻辑计划阶段应用启发式规则,减少冗余计算。
    • 自适应查询(AQE, Spark 3.0+):运行时根据 Shuffle 数据量动态调整 Join 策略、分区数。
  • Tungsten 执行引擎
    • 内存效率: 紧凑二进制格式存储数据,减少内存占用 50%+。
    • 代码生成: 将查询编译为字节码,性能接近手写代码。
  • 统一数据源接入
    • Data Source API V2: 支持扩展自定义数据源(如 Kafka、Cassandra),并实现下推优化。

Spark SQL高级语法

复杂数据类型

  • 数组 (ARRAY):同类型元素的有序集合(索引从0开始)。

    • size():数组长度。
    • explode():展开数组为多行。
    • array_contains(arr, value):检查元素是否存在。
    • transform(arr, x -> x * 2):对每个元素应用Lambda函数。
  • 映射(MAP<K,V>):键值对集合(键唯一)。

    • element_at(map, key):按键取值。

    • map_keys()/map_values():获取所有键/值。

    • map_concat(map1, map2):合并两个Map。

  • 结构体 (STRUCT<field1:T1, ...>):包含多个字段的复合类型(类似JSON对象)。

高级聚合与分组

  • GROUPING SETS:自定义聚合维度组合,无关字段用NULL值填充。

    SQL 复制代码
    SELECT city, department, SUM(salary) AS total_salary
    FROM employees
    GROUP BY GROUPING SETS (
        (city, department), (city), ()                  
    )
  • ROLLUP:层级聚合

    sql 复制代码
    SELECT country, province, city,COUNT(*) AS count
    FROM locations
    GROUP BY ROLLUP(country, province, city)
    -- SQL结果会显示(country, province, city)、(country, province)、(country)、()的聚合结果
  • CUBE:所有维度聚合

    sql 复制代码
    SELECT year, product, SUM(revenue) 
    FROM sales
    GROUP BY CUBE(year, product)
    -- SQL结果会显示(year, profucr)、(year)、(product)、()的聚合结果
  • 聚合过滤(FILTER 子句):对特定条件聚合 (比WHERE更高效)

    sql 复制代码
    SELECT department,
        SUM(salary) FILTER (WHERE age > 30) AS senior_salary,
        AVG(salary) FILTER (WHERE gender = 'F') AS female_avg
    FROM employees
    GROUP BY department

窗口函数

  • 核心结构

    sql 复制代码
    SELECT
        RANK() OVER (
            PARTITION BY dim 
            ORDER BY metric DESC
            ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW -- 窗口范围
        ) AS rank
    FROM table
  • 聚合函数:**SUM()、AVG()、COUNT()、MAX()、MIN()**等

  • 排名函数

    • ROW_NUMBER():为窗口内的每一行分配一个唯一的序号,序号连续且不重复。
    • RANK():排名函数,允许有并列的名次,名次后面会出现空位。
    • ENSE_RANK():排名函数,允许有并列的名次,名次后面不会空出位置,即序号连续。
  • 分组窗口函数

    • NTILE():将窗口内的行分为指定数量的组,每组的行数尽可能相等。
  • 分布窗口函数

    • PERCENT_RANK():计算每一行的相对排名,返回一个介于0到1之间的值,表示当前行在分区中的排名百分比。
    • CUME_DIST():计算小于或等于当前行的行数占窗口总行数的比例。
  • 取值窗口函数

    • LAG():访问当前行之前的第n行数据。
    • LEAD():访问当前行之后的第n行数据。
    • FIRST_VALUE():获取窗口内第一行的值。
    • LAST_VALUE():获取窗口内最后一行的值。
    • NTH_VALUE():获取窗口内第n行的值,如果存在多行则返回第一个。
  • 窗口范围

    • UNBOUNDED PRECEDING:从分区中的第一行开始(前面所有行)。
    • CURRENT ROW:包括当前行。
    • N PRECEDING:从当前行之前的第 nN行开始。
    • N FOLLOWING:包括当前行之后第 N 行。
    • UNBOUNDED FOLLOWING:到分区中的最后一行结束(后面所有行)。

Spark SQL内置函数

  • 聚合函数 (Aggregate Functions)

    函数 返回值 说明
    approx_count_distinct Long 近似去重计数 (rsd=相对误差)
    collect_list Array 收集值到数组 (保留重复)
    collect_set Array 收集值到集合 (去重)
    corr Double 相关系数 (-1~1)
    covar_pop/covar_samp Double 总体/样本协方差
    kurtosis Double 峰度
    skewness Double 偏度
    percentile_approx Double 近似百分位数
  • 数组函数 (Array Functions)

    函数 说明
    array(e1, e2, ...) 转换为数组
    array_contains(arr, val) 数组包含
    array_distinct 数组去重
    array_position(arr, val) 数组索引值
    size 数组大小
  • Map 函数 (Map Functions)

    函数 说明
    map(k1,v1, k2,v2) 转化为map
    element_at(map, key) 根据键获取值
    map_keys/map_values 获取键列表、值列表
    map_entries 获取map entry
  • 日期时间函数 (Datetime Functions)

    函数 说明 示例
    date_add/date_sub 日期加减 date_add('2025-07-01', 7)2025-07-08
    datediff 日期差 datediff('2025-06-01','2025-06-30')30
    date_format 格式化 date_format(ts, 'yyyy-MM')"2025-07"
    trunc 截断日期 trunc('2025-07-01', 'MONTH')2025-07-01
    window 时间窗口 流处理中按时间聚合
  • JSON 函数 (JSON Functions)

    函数 说明 示例
    get_json_object JSON路径取值 get_json_object('{"a":1}', '$.a')1
    json_tuple 多字段提取 json_tuple('{"name":"Bob"}', 'name')Bob
    from_json 解析为结构体 from_json('{"id":1}', 'id INT')
    to_json 结构体转JSON to_json(struct('Tom' AS name))'{"name":"Tom"}'
    schema_of_json 推断Schema schema_of_json('[{"a":1}]')ARRAY<STRUCT<a:INT>>
  • 字符串函数 (String Functions)

    函数 说明 示例
    concat_ws 字符串拼接join concat_ws('-','2025','07')"2025-07"
    split 字符串解析转数组 split('a,b,c', ',')["a","b","c"]
    regexp_extract 正则表达式 regexp_extract('id=100','id=(\\d+)',1)"100"
    translate 字符串子串转化 translate('hello','el','ip')"hippo"
    parse_url 解析URL parse_url('http://a.com?q=spark','QUERY')"q=spark"
相关推荐
程序员张32 分钟前
SpringBoot计时一次请求耗时
java·spring boot·后端
程序员岳焱6 小时前
Java 与 MySQL 性能优化:Java 实现百万数据分批次插入的最佳实践
后端·mysql·性能优化
永洪科技6 小时前
永洪科技荣获商业智能品牌影响力奖,全力打造”AI+决策”引擎
大数据·人工智能·科技·数据分析·数据可视化·bi
麦兜*7 小时前
Spring Boot启动优化7板斧(延迟初始化、组件扫描精准打击、JVM参数调优):砍掉70%启动时间的魔鬼实践
java·jvm·spring boot·后端·spring·spring cloud·系统架构
weixin_307779137 小时前
Hive集群之间迁移的Linux Shell脚本
大数据·linux·hive·bash·迁移学习
大只鹅7 小时前
解决 Spring Boot 对 Elasticsearch 字段没有小驼峰映射的问题
spring boot·后端·elasticsearch
ai小鬼头7 小时前
AIStarter如何快速部署Stable Diffusion?**新手也能轻松上手的AI绘图
前端·后端·github
IT_10248 小时前
Spring Boot项目开发实战销售管理系统——数据库设计!
java·开发语言·数据库·spring boot·后端·oracle
bobz9658 小时前
动态规划
后端
stark张宇8 小时前
VMware 虚拟机装 Linux Centos 7.9 保姆级教程(附资源包)
linux·后端