mysql -- WITH RECURSIVE 语法

引言

在 SQL 中，WITH RECURSIVE 是一个用于创建递归查询的语句。它允许你定义一个 Common Table Expression (CTE)，该 CTE 可以引用自身的输出。递归 CTE 非常适合于查询具有层次结构或树状结构的数据，例如组织结构、文件系统或任何其他具有自引用关系的数据。

一、基本语法

sql 复制代码

WITH RECURSIVE cte_name (column1, column2, ...) AS (
  -- 非递归的初始部分，定义了 CTE 的起点
  SELECT ...
  FROM ...

  UNION ALL

  -- 递归部分，可以引用 CTE 的别名
  SELECT ...
  FROM cte_name
  WHERE ...
)
-- 最后的 SELECT 或其他 DML 语句，使用递归 CTE
SELECT * FROM cte_name;

二、示例

假设我们有一个表示组织结构的表 employees，其中包含 id, manager_id 和 name 字段。manager_id 是员工的上级经理的 id，如果 manager_id 是 NULL，则表示该员工是 CEO 或顶层经理。

我们想要查询整个组织结构中的所有员工及其上级经理。

bash 复制代码

WITH RECURSIVE employee_hierarchy (id, name, manager_id, path) AS (
  -- 非递归的初始部分：查找顶层经理（没有经理的员工）
  SELECT
    id,
    name,
    manager_id,
    CONCAT(name, '/') AS path -- 使用 CONCAT 创建初始路径
  FROM employees
  WHERE manager_id IS NULL
  
  UNION ALL
  
  -- 递归部分：查找所有下属
  SELECT
    e.id,
    e.name,
    e.manager_id,
    CONCAT(e.name, '/', eh.path) AS path -- 将当前员工添加到路径中
  FROM employees e
  INNER JOIN employee_hierarchy eh ON e.manager_id = eh.id
)
SELECT * FROM employee_hierarchy;

在这个例子中：

WITH RECURSIVE 开始定义一个递归 CTE employee_hierarchy。
CTE 中的 column1, column2, ... 是你想要在结果中选择的列。
初始查询部分（在 UNION ALL 之前）定义了递归的起点，通常是顶级节点或者查询的基本情况。
递归查询部分（在 UNION ALL 之后）使用 CTE 的别名来引用自身的输出，以便能够递归地查询下属或子节点。
UNION ALL 用于合并初始查询和递归查询的结果，它允许重复的行，这是递归查询的关键部分。
最后的 SELECT * FROM employee_hierarchy; 是最终的查询，它将返回 CTE 的全部结果。

递归 CTE 是 SQL 中处理分层数据的强大工具，但它们也可能很复杂，需要仔细设计以避免无限递归或不正确的结果。

三、实战案例--查询最近12个月的诊断量数据

1. 按要求实现以下需求：

1.建表语句如下：

CREATE TABLE rkk_dzblzdl (
id int NOT NULL AUTO_INCREMENT COMMENT 'id',
month varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '月份(1-12月)',
zdcs int DEFAULT NULL COMMENT '诊断次数',
xzqh varchar(12) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '行政区划',

PRIMARY KEY (id)

)COMMENT='电子病历诊断量';

2.要求查询最近12个月的诊断量数据，按行政区划/月份合并统计;

3.结果返回诊断次数，月份，按月份排序；

4.返回数据更新时间，取当前最大的月份

2.实现结果

bash 复制代码

WITH RECURSIVE RecentMonths AS (  
    SELECT DATE_FORMAT(CURDATE(), '%Y-%m') AS month  
    UNION ALL  
    SELECT DATE_FORMAT(DATE_SUB(STR_TO_DATE(CONCAT(month, '-01'), '%Y-%m-%d'), INTERVAL 1 MONTH), '%Y-%m')  
    FROM RecentMonths  
    WHERE STR_TO_DATE(CONCAT(month, '-01'), '%Y-%m-%d') > DATE_SUB(CURDATE(), INTERVAL 12 MONTH)  
)  
  
SELECT   
    COALESCE(r.xzqh, rm.month) AS xzqh,   
    rm.month AS month,   
    SUM(r.zdcs) AS zdcs_count,  
    (SELECT MAX(month) FROM rkk_dzblzdl) AS last_updated_month_in_table  
FROM   
    RecentMonths rm  
LEFT JOIN   
    rkk_dzblzdl r ON rm.month = r.month  
GROUP BY   
    rm.month, r.xzqh  
ORDER BY   
    STR_TO_DATE(CONCAT(rm.month, '-01'), '%Y-%m-%d') DESC, r.xzqh;

这个查询使用了递归的公用表表达式（CTE）RecentMonths 来生成最近12个月的月份列表。然后，它将这些月份与 rkk_dzblzdl 表进行左连接，以便即使在某个月份没有诊断数据时也能在结果集中显示该月份。

COALESCE(r.xzqh, rm.month) 确保即使在某个月份没有特定行政区划的数据时，也能显示月份。

MAX(rm.month) OVER () 是一个窗口函数，用于在整个结果集上计算最大的月份，并作为 last_updated_month 返回。由于它是窗口函数，所以它的值对于结果集中的每一行都是相同的。

最后，结果集按照月份降序和行政区划升序进行排序。