SQL 复杂查询和性能优化

一、掌握复杂查询的核心技能

1. ​理解 SQL 执行顺序
  • SQL 语句的逻辑执行顺序(非书写顺序):

    复制代码
    FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → DISTINCT → ORDER BY → LIMIT
  • 关键点:每一步的结果会传递给下一步,影响优化逻辑。

2. ​多表连接(JOIN)​
  • 类型

    • INNER JOIN(默认)
    • LEFT/RIGHT JOIN
    • FULL OUTER JOIN(部分数据库不支持)
    • CROSS JOIN(笛卡尔积)
  • 示例

    复制代码
    SELECT u.name, o.order_id
    FROM users u
    LEFT JOIN orders o ON u.id = o.user_id
    WHERE o.amount > 100;
3. ​子查询与 CTE
  • 子查询

    复制代码
    SELECT name FROM users
    WHERE id IN (SELECT user_id FROM orders WHERE amount > 100);
  • CTE(公共表表达式)​

    复制代码
    WITH high_value_orders AS (
        SELECT user_id FROM orders WHERE amount > 100
    )
    SELECT u.name FROM users u
    JOIN high_value_orders hvo ON u.id = hvo.user_id;
  • 优势:CTE 可读性更好,支持递归查询。

4. ​窗口函数
  • 用途:在结果集的子集上计算聚合(不折叠行)。

  • 示例

    复制代码
    SELECT name, salary,
           RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS rank
    FROM employees;
  • 常用函数

    • ROW_NUMBER(), RANK(), DENSE_RANK()
    • LEAD(), LAG()
    • SUM() OVER (PARTITION BY ...)
5. ​复杂条件与 CASE 语句
  • 动态分类

    复制代码
    SELECT name,
           CASE WHEN salary > 10000 THEN 'High'
                WHEN salary > 5000 THEN 'Medium'
                ELSE 'Low' END AS salary_level
    FROM employees;

二、性能优化核心技巧

1. ​分析执行计划
  • 使用 EXPLAIN

    复制代码
    EXPLAIN SELECT * FROM users WHERE email = '[email protected]';
  • 关键指标

    • Full Table Scan(全表扫描)→ 需要避免。
    • Index Scan(索引扫描)→ 理想情况。
    • Rows Removed by Filter → 过滤效率。
2. ​索引优化
  • 何时使用索引
    • 频繁作为查询条件的列(WHERE、JOIN、ORDER BY)。
    • 高选择性的列(唯一值多,如用户ID)。
  • 索引类型
    • 单列索引、复合索引、唯一索引、覆盖索引。
  • 复合索引设计
    • 将最常用的列放在前面。
    • 示例:INDEX (country, city) 可优化 WHERE country='US' AND city='NY'
3. ​避免全表扫描
  • 反例

    复制代码
    SELECT * FROM users WHERE YEAR(created_at) = 2023; -- 无法使用 created_at 的索引
  • 优化

    复制代码
    SELECT * FROM users
    WHERE created_at BETWEEN '2023-01-01' AND '2023-12-31';
4. ​分页优化
  • 低效写法

    复制代码
    SELECT * FROM users LIMIT 1000000, 10; -- 扫描前 100 万行
  • 优化

    复制代码
    SELECT * FROM users WHERE id > 1000000 ORDER BY id LIMIT 10;
5. ​减少数据传输量
  • 避免 SELECT *

    复制代码
    SELECT id, name FROM users; -- 只取必要字段
  • 分批次处理

    复制代码
    -- 使用 WHERE 条件分块处理大表
    DELETE FROM logs WHERE created_at < '2020-01-01' LIMIT 1000;
6. ​利用分区表
  • 按时间分区

    复制代码
    -- 按月份分区(具体语法因数据库而异)
    CREATE TABLE logs (
        id INT,
        log_time DATETIME,
        message TEXT
    ) PARTITION BY RANGE (YEAR(log_time), MONTH(log_time));
  • 优势:快速定位分区,减少扫描范围。


三、高级优化场景

1. ​JOIN 优化
  • 小表驱动大表

    复制代码
    -- 假设 users 是小表,orders 是大表
    SELECT * FROM users u
    JOIN orders o ON u.id = o.user_id;
  • 使用 STRAIGHT_JOIN(MySQL)​:强制指定 JOIN 顺序。

2. ​临时表与物化视图
  • 临时表

    复制代码
    CREATE TEMPORARY TABLE temp_high_salary AS
    SELECT * FROM employees WHERE salary > 10000;
  • 物化视图 :预计算复杂查询结果(如 PostgreSQL 的 MATERIALIZED VIEW)。

3. ​统计信息更新
  • 手动更新 (适用于数据变化大的表):

    复制代码
    ANALYZE TABLE users; -- MySQL
    VACUUM ANALYZE users; -- PostgreSQL
4. ​避免锁竞争
  • 使用乐观锁

    复制代码
    UPDATE products SET stock = stock - 1
    WHERE id = 100 AND stock > 0;
  • 分拆事务:将大事务拆分为小操作。


四、工具与调试

  1. 数据库管理工具
    • MySQL: EXPLAIN FORMAT=JSONSHOW PROFILE
    • PostgreSQL: EXPLAIN ANALYZEpg_stat_statements
  2. 监控工具
    • Prometheus + Grafana(监控慢查询、锁等待)。
  3. 基准测试
    • 使用 sysbench 或自定义脚本模拟负载。

五、常见误区

  1. 过度索引:索引会降低写入速度,需权衡。
  2. 忽略 NULL 值WHERE column = NULL 应改为 WHERE column IS NULL
  3. 滥用子查询:优先使用 JOIN 或 CTE。
  4. 不更新统计信息:导致优化器选择错误执行计划。
相关推荐
影子240141 分钟前
Navicat导出mysql数据库表结构说明到excel、word,单表导出方式记录
数据库·mysql·excel
java_heartLake1 小时前
PostgreSQL15深度解析(从15.0-15.12)
数据库·postgresql
nuc-1273 小时前
sqli-labs学习记录8
数据库·学习·sqli-labs
余华余华4 小时前
计算机等级考试数据库三级(笔记3)
服务器·数据库·oracle
南風_入弦5 小时前
Oracle logminer详解
数据库·oracle·恢复
小安同学iter6 小时前
SpringBoot (二) 日志系统
数据库·spring boot·后端
Chandler246 小时前
Redis:事务
数据库·redis·缓存
是阿建吖!7 小时前
【MySQL】事务
数据库·mysql
热爱编程的小曾7 小时前
sqli-labs靶场 less5
sql
Asuka077 小时前
MySQL数据库和表的操作
数据库·mysql