引言
在 SQL 中,WITH RECURSIVE 是一个用于创建递归查询的语句。它允许你定义一个 Common Table Expression (CTE),该 CTE 可以引用自身的输出。递归 CTE 非常适合于查询具有层次结构或树状结构的数据,例如组织结构、文件系统或任何其他具有自引用关系的数据。
一、基本语法
sql
WITH RECURSIVE cte_name (column1, column2, ...) AS (
-- 非递归的初始部分,定义了 CTE 的起点
SELECT ...
FROM ...
UNION ALL
-- 递归部分,可以引用 CTE 的别名
SELECT ...
FROM cte_name
WHERE ...
)
-- 最后的 SELECT 或其他 DML 语句,使用递归 CTE
SELECT * FROM cte_name;
二、示例
假设我们有一个表示组织结构的表 employees,其中包含 id, manager_id 和 name 字段。manager_id 是员工的上级经理的 id,如果 manager_id 是 NULL,则表示该员工是 CEO 或顶层经理。
我们想要查询整个组织结构中的所有员工及其上级经理。
bash
WITH RECURSIVE employee_hierarchy (id, name, manager_id, path) AS (
-- 非递归的初始部分:查找顶层经理(没有经理的员工)
SELECT
id,
name,
manager_id,
CONCAT(name, '/') AS path -- 使用 CONCAT 创建初始路径
FROM employees
WHERE manager_id IS NULL
UNION ALL
-- 递归部分:查找所有下属
SELECT
e.id,
e.name,
e.manager_id,
CONCAT(e.name, '/', eh.path) AS path -- 将当前员工添加到路径中
FROM employees e
INNER JOIN employee_hierarchy eh ON e.manager_id = eh.id
)
SELECT * FROM employee_hierarchy;
在这个例子中:
- WITH RECURSIVE 开始定义一个递归 CTE employee_hierarchy。
- CTE 中的 column1, column2, ... 是你想要在结果中选择的列。
- 初始查询部分(在 UNION ALL 之前)定义了递归的起点,通常是顶级节点或者查询的基本情况。
- 递归查询部分(在 UNION ALL 之后)使用 CTE 的别名来引用自身的输出,以便能够递归地查询下属或子节点。
- UNION ALL 用于合并初始查询和递归查询的结果,它允许重复的行,这是递归查询的关键部分。
- 最后的 SELECT * FROM employee_hierarchy; 是最终的查询,它将返回 CTE 的全部结果。
递归 CTE 是 SQL 中处理分层数据的强大工具,但它们也可能很复杂,需要仔细设计以避免无限递归或不正确的结果。
三、实战案例--查询 最近12个月的诊断量数据
1. 按要求实现以下需求:
1.建表语句如下:
CREATE TABLE rkk_dzblzdl
(
id
int NOT NULL AUTO_INCREMENT COMMENT 'id',
month
varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '月份(1-12月)',
zdcs
int DEFAULT NULL COMMENT '诊断次数',
xzqh
varchar(12) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '行政区划',
PRIMARY KEY (id
)
)COMMENT='电子病历诊断量';
2.要求查询 最近12个月的诊断量数据,按行政区划/月份 合并统计;
3.结果返回 诊断次数,月份,按月份排序;
4.返回 数据更新时间,取当前最大的月份
2.实现结果
bash
WITH RECURSIVE RecentMonths AS (
SELECT DATE_FORMAT(CURDATE(), '%Y-%m') AS month
UNION ALL
SELECT DATE_FORMAT(DATE_SUB(STR_TO_DATE(CONCAT(month, '-01'), '%Y-%m-%d'), INTERVAL 1 MONTH), '%Y-%m')
FROM RecentMonths
WHERE STR_TO_DATE(CONCAT(month, '-01'), '%Y-%m-%d') > DATE_SUB(CURDATE(), INTERVAL 12 MONTH)
)
SELECT
COALESCE(r.xzqh, rm.month) AS xzqh,
rm.month AS month,
SUM(r.zdcs) AS zdcs_count,
(SELECT MAX(month) FROM rkk_dzblzdl) AS last_updated_month_in_table
FROM
RecentMonths rm
LEFT JOIN
rkk_dzblzdl r ON rm.month = r.month
GROUP BY
rm.month, r.xzqh
ORDER BY
STR_TO_DATE(CONCAT(rm.month, '-01'), '%Y-%m-%d') DESC, r.xzqh;
这个查询使用了递归的公用表表达式(CTE)RecentMonths 来生成最近12个月的月份列表。然后,它将这些月份与 rkk_dzblzdl 表进行左连接,以便即使在某个月份没有诊断数据时也能在结果集中显示该月份。
COALESCE(r.xzqh, rm.month) 确保即使在某个月份没有特定行政区划的数据时,也能显示月份。
MAX(rm.month) OVER () 是一个窗口函数,用于在整个结果集上计算最大的月份,并作为 last_updated_month 返回。由于它是窗口函数,所以它的值对于结果集中的每一行都是相同的。
最后,结果集按照月份降序和行政区划升序进行排序。