本篇来讲解 MySQL 中的聚合函数、分组查询 (GROUP BY) 以及联合查询 (JOIN),并配合大量题目进行巩固~~
第一部分:聚合函数 (Aggregate Functions)
聚合函数对一组值执行计算,并返回单个值。它们通常与 GROUP BY 子句一起使用,用于对分组后的数据进行汇总统计。MySQL 提供了多种聚合函数:
-
COUNT(): 计算行数。-
COUNT(*): 计算所有行的数量,包括包含NULL值的行。 -
COUNT(column_name): 计算指定列中非NULL值的数量。 -
COUNT(DISTINCT column_name): 计算指定列中不同(去重)非NULL值的数量。 -
示例题目 1.1 : 假设有一个
students表 (id,name,major,gpa)。查询表中总共有多少学生。sqlSELECT COUNT(*) AS total_students FROM students; -
示例题目 1.2 : 查询有多少个不同的专业 (
major) (假设major可能重复)。sqlSELECT COUNT(DISTINCT major) AS distinct_majors FROM students;
-
-
SUM(): 计算数值列的总和。忽略NULL值。-
示例题目 1.3 : 查询所有学生的总
gpa之和(假设gpa是数值类型)。sqlSELECT SUM(gpa) AS total_gpa FROM students;
-
-
AVG(): 计算数值列的平均值。忽略NULL值。-
计算平均值 \\bar{x} 的公式为: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$
-
示例题目 1.4 : 查询所有学生的平均
gpa。sqlSELECT AVG(gpa) AS average_gpa FROM students;
-
-
MAX(): 返回指定列中的最大值。可用于数值、日期和字符串(按字符顺序)。忽略NULL值。-
示例题目 1.5 : 查询最高的
gpa是多少。sqlSELECT MAX(gpa) AS highest_gpa FROM students;
-
-
MIN(): 返回指定列中的最小值。可用于数值、日期和字符串(按字符顺序)。忽略NULL值。-
示例题目 1.6 : 查询最低的
gpa是多少。sqlSELECT MIN(gpa) AS lowest_gpa FROM students;
-
-
GROUP_CONCAT()(MySQL 特有): 将来自一个组的多个行中的字符串值连接成一个字符串。可以指定分隔符。-
GROUP_CONCAT(column_name): 默认用逗号,连接。 -
GROUP_CONCAT(column_name SEPARATOR ';'): 用分号;连接。 -
GROUP_CONCAT(DISTINCT column_name ORDER BY column_name): 去重并按指定列排序后连接。 -
示例题目 1.7 : 按专业 (
major) 分组,列出每个专业的所有学生姓名(用逗号分隔)。sqlSELECT major, GROUP_CONCAT(name) AS student_names FROM students GROUP BY major; -
示例题目 1.8 : 按专业分组,列出每个专业所有 不同 的学生姓名(按字母顺序排序,用分号分隔)。
sqlSELECT major, GROUP_CONCAT(DISTINCT name ORDER BY name SEPARATOR ';') AS distinct_sorted_names FROM students GROUP BY major;
-
关键点总结 (聚合函数):
- 聚合函数作用于 一组 行,返回一个 单一 的值。
- 它们通常用于
SELECT列表中。 - 它们会忽略
NULL值(COUNT(*)除外)。 DISTINCT可以在聚合函数内部使用(如COUNT(DISTINCT major))来对列值去重后再计算。- 单独使用聚合函数时,它们作用于整个查询结果集。
第二部分:分组查询 (GROUP BY)
GROUP BY 子句用于根据一个或多个列对结果集进行分组。然后,在每个分组上应用聚合函数,得到每个组的汇总信息。
-
基本语法:
sqlSELECT column1, aggregate_function(column2) FROM table_name WHERE condition -- 可选,在分组 *前* 过滤行 GROUP BY column1 -- 指定分组依据的列 HAVING condition; -- 可选,在分组 *后* 过滤分组 -
执行顺序:
FROM: 确定数据来源。WHERE: 根据条件过滤 行 (在分组前)。GROUP BY: 将剩余的行分成组。HAVING: 根据条件过滤 组 (在分组后,通常涉及聚合函数)。SELECT: 选择要显示的列(包括分组列和聚合结果)。ORDER BY: 对最终结果排序。
-
分组依据:
-
可以按单列分组:
GROUP BY department_id -
可以按多列分组:
GROUP BY department_id, job_title(先按department_id分大组,再在每个大组内按job_title分小组)。 -
示例题目 2.1 : 有一个
orders表 (order_id,customer_id,product_id,quantity,order_date)。统计每个客户 (customer_id) 总共下了多少订单 (COUNT(order_id))。sqlSELECT customer_id, COUNT(order_id) AS order_count FROM orders GROUP BY customer_id;
-
-
HAVINGvsWHERE:-
WHERE: 在分组 前 过滤 行。不能使用聚合函数。 -
HAVING: 在分组 后 过滤 组。可以使用聚合函数。 -
示例题目 2.2 : 查询平均成绩 (
AVG(gpa)) 大于 3.5 的专业 (major)。sqlSELECT major, AVG(gpa) AS avg_gpa FROM students GROUP BY major HAVING AVG(gpa) > 3.5; -- HAVING 过滤分组 -
示例题目 2.3 : 查询订单表中,在 2023 年 (
WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31') 下单次数超过 5 次 (COUNT(order_id) > 5) 的客户 (customer_id)。sqlSELECT customer_id, COUNT(order_id) AS order_count FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31' -- WHERE 在分组前过滤行 GROUP BY customer_id HAVING COUNT(order_id) > 5; -- HAVING 在分组后过滤组
-
-
GROUP BY与表达式: 分组依据可以是表达式的结果。-
示例题目 2.4 : 按年份 (
YEAR(order_date)) 统计每年的总销售额 (SUM(quantity * unit_price),假设unit_price存在)。sqlSELECT YEAR(order_date) AS order_year, SUM(quantity * unit_price) AS total_sales FROM orders JOIN products ON orders.product_id = products.product_id -- 假设有 products 表 GROUP BY YEAR(order_date);
-
关键点总结 (GROUP BY):
GROUP BY用于将数据分成逻辑组。- 出现在
SELECT列表中非聚合函数列,通常 必须 出现在GROUP BY子句中(或者被包含在聚合函数中)。 - 使用
HAVING对分组结果进行筛选,通常涉及聚合函数。 - 理解
WHERE(行过滤) 和HAVING(组过滤) 的执行时机和区别至关重要。
第三部分:联合查询 (JOIN)
联合查询用于从两个或多个表(或视图)中基于它们之间的相关列组合行。这是关系型数据库的核心操作,用于整合分散在不同表中的数据。
MySQL 支持多种 JOIN 类型:
-
INNER JOIN(或简写为JOIN):-
返回两个表中满足连接条件的所有行。如果某行在其中一个表中没有匹配的行,则该行不会出现在结果中。
-
语法 :
sqlSELECT columns FROM table1 [INNER] JOIN table2 ON table1.common_column = table2.common_column; -
示例题目 3.1 : 有两个表:
employees(emp_id,emp_name,dept_id) 和departments(dept_id,dept_name)。查询所有员工及其所在部门的名称。sqlSELECT e.emp_name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id = d.dept_id;
-
-
LEFT JOIN(或LEFT OUTER JOIN):-
返回左表 (
table1) 的所有行,即使在右表 (table2) 中没有匹配的行。如果右表中没有匹配的行,则结果中右表的部分将包含NULL。 -
语法 :
sqlSELECT columns FROM table1 LEFT [OUTER] JOIN table2 ON table1.common_column = table2.common_column; -
示例题目 3.2 : 查询所有部门 (
departments),并列出属于该部门的员工姓名(如果部门没有员工,员工姓名显示为NULL)。sqlSELECT d.dept_name, e.emp_name FROM departments d LEFT JOIN employees e ON d.dept_id = e.dept_id;
-
-
RIGHT JOIN(或RIGHT OUTER JOIN):-
返回右表 (
table2) 的所有行,即使在左表 (table1) 中没有匹配的行。如果左表中没有匹配的行,则结果中左表的部分将包含NULL。 -
语法 :
sqlSELECT columns FROM table1 RIGHT [OUTER] JOIN table2 ON table1.common_column = table2.common_column; -
示例题目 3.3 : 查询所有员工 (
employees),并列出他们所属的部门名称(如果员工未分配部门,部门名称显示为NULL)。sqlSELECT e.emp_name, d.dept_name FROM employees e RIGHT JOIN departments d ON e.dept_id = d.dept_id; -- 注意:RIGHT JOIN 使用较少,通常用 LEFT JOIN 调整表顺序实现相同效果。例如上面的查询等价于: SELECT e.emp_name, d.dept_name FROM departments d LEFT JOIN employees e ON d.dept_id = e.dept_id; -- 将 departments 作为左表
-
-
FULL JOIN(或FULL OUTER JOIN):-
返回左表和右表中的所有行。当某行在另一个表中没有匹配时,另一个表的部分将包含
NULL。 -
注意 : MySQL 不直接支持
FULL JOIN。但可以通过组合LEFT JOIN和RIGHT JOIN并使用UNION来模拟实现。 -
语法 (模拟) :
sqlSELECT columns FROM table1 LEFT JOIN table2 ON ... UNION SELECT columns FROM table1 RIGHT JOIN table2 ON ...; -
示例题目 3.4 : 查询所有部门和所有员工,列出所有可能的组合(有归属关系的显示关系,无归属关系的显示
NULL)。sqlSELECT d.dept_id, d.dept_name, e.emp_id, e.emp_name FROM departments d LEFT JOIN employees e ON d.dept_id = e.dept_id UNION SELECT d.dept_id, d.dept_name, e.emp_id, e.emp_name FROM departments d RIGHT JOIN employees e ON d.dept_id = e.dept_id WHERE d.dept_id IS NULL; -- 排除 LEFT JOIN 部分已经包含的行 -- 更简洁的模拟(假设 dept_id 在 departments 和 employees 中都是非 NULL 且唯一): SELECT d.dept_id, d.dept_name, e.emp_id, e.emp_name FROM departments d LEFT JOIN employees e ON d.dept_id = e.dept_id UNION SELECT d.dept_id, d.dept_name, e.emp_id, e.emp_name FROM employees e LEFT JOIN departments d ON e.dept_id = d.dept_id WHERE d.dept_id IS NULL;
-
-
CROSS JOIN:-
返回两个表的笛卡尔积,即左表的每一行与右表的每一行组合。不使用
ON子句(或者使用无效的连接条件)。结果集的行数是左表行数乘以右表行数。 -
语法 :
sqlSELECT columns FROM table1 CROSS JOIN table2; -- 或者 (不推荐,易与 INNER JOIN 混淆) SELECT columns FROM table1, table2; -
示例题目 3.5 : 生成一个包含所有颜色 (
colors) 和所有尺码 (sizes) 组合的列表。sqlSELECT color_name, size_name FROM colors CROSS JOIN sizes;
-
-
SELF JOIN:-
一个表与其自身进行连接。通常用于处理层次结构(如员工和经理)、比较同一表中的行。
-
需要使用表别名来区分同一个表的两个实例。
-
语法 :
sqlSELECT a.column, b.column FROM table_name a JOIN table_name b ON a.common_column = b.common_column WHERE condition; -- 通常需要额外条件来排除无效连接(如 a.id != b.id) -
示例题目 3.6 : 在
employees表中,每个员工 (emp_id) 有一个经理 (manager_id),经理也是员工。查询每个员工及其经理的姓名。sqlSELECT e.emp_name AS employee_name, m.emp_name AS manager_name FROM employees e LEFT JOIN employees m ON e.manager_id = m.emp_id; -- 使用 LEFT JOIN 处理没有经理的情况 -
示例题目 3.7 : 在
products表中,找出价格 (price) 相同的不同产品 (product_id)。sqlSELECT a.product_id AS product_a, b.product_id AS product_b, a.price FROM products a INNER JOIN products b ON a.price = b.price WHERE a.product_id < b.product_id; -- 避免 (A, B) 和 (B, A) 重复,以及 (A, A)多表连接:
-
-
-
可以连接两个以上的表。
-
语法 :
sqlSELECT ... FROM table1 JOIN table2 ON condition1 JOIN table3 ON condition2 ... [WHERE ...] [GROUP BY ...] [HAVING ...]; -
示例题目 3.8 : 有三个表:
orders(order_id,customer_id,order_date),order_details(order_id,product_id,quantity),products(product_id,product_name,price)。查询订单号、客户ID、产品名称、购买数量和总金额 (quantity * price)。sqlSELECT o.order_id, o.customer_id, p.product_name, od.quantity, (od.quantity * p.price) AS total_amount FROM orders o JOIN order_details od ON o.order_id = od.order_id JOIN products p ON od.product_id = p.product_id;
-
关键点总结 (JOIN):
JOIN用于组合多个表中的数据。- 理解不同
JOIN类型(INNER,LEFT,RIGHT,CROSS,SELF)的语义和行为差异。 - 使用
ON子句指定连接条件(通常是等值连接)。 - 使用表别名简化多表查询,尤其是在
SELF JOIN时。 - 注意
NULL值在LEFT/RIGHT JOIN中的处理。
第四部分:综合题目巩固
现在,我们将聚合函数、分组查询和联合查询结合起来,解决更复杂的问题。
题目 4.1 : 在 orders 和 order_details、products 表结构下(假设 products 表有 category_id,categories 表有 category_id, category_name): 查询每个产品类别 (category_name) 在 2023 年的总销售额 (SUM(quantity * price)),并按销售额从高到低排序。
sql
SELECT c.category_name, SUM(od.quantity * p.price) AS total_sales
FROM orders o
JOIN order_details od ON o.order_id = od.order_id
JOIN products p ON od.product_id = p.product_id
JOIN categories c ON p.category_id = c.category_id
WHERE YEAR(o.order_date) = 2023 -- 过滤年份
GROUP BY c.category_name -- 按类别分组
ORDER BY total_sales DESC; -- 按销售额降序排序
题目 4.2 : 在 employees (emp_id, emp_name, salary, dept_id) 和 departments (dept_id, dept_name) 表下: 查询每个部门 (dept_name) 的平均工资 (AVG(salary)),并且只显示平均工资高于公司整体平均工资的部门。
sql
SELECT d.dept_name, AVG(e.salary) AS avg_salary
FROM departments d
JOIN employees e ON d.dept_id = e.dept_id
GROUP BY d.dept_name
HAVING AVG(e.salary) > (SELECT AVG(salary) FROM employees); -- 子查询获取公司整体平均工资
题目 4.3 : 在 students (student_id, student_name), courses (course_id, course_name), enrollments (student_id, course_id, grade) 表下: 查询每个学生 (student_name) 选修的课程数量 (COUNT(course_id)) 和平均成绩 (AVG(grade)),并按平均成绩降序排列。
sql
SELECT s.student_name, COUNT(e.course_id) AS course_count, AVG(e.grade) AS avg_grade
FROM students s
LEFT JOIN enrollments e ON s.student_id = e.student_id -- 使用 LEFT JOIN 确保没选课的学生也被列出 (count=0, avg=null)
GROUP BY s.student_id, s.student_name -- 按学生分组 (通常按主键分组更安全)
ORDER BY avg_grade DESC; -- NULL 在降序排列中通常排在最后
题目 4.4 : 在 orders (order_id, customer_id, order_date), customers (customer_id, customer_name, country), order_details (order_id, product_id, quantity), products (product_id, product_name) 表下: 查询 2023 年每个国家 (country) 的每个客户 (customer_name) 购买的不同产品数量 (COUNT(DISTINCT product_id)) 和总购买金额 (SUM(quantity * price)),仅列出总金额超过 1000 的客户。
sql
SELECT c.country, c.customer_name,
COUNT(DISTINCT od.product_id) AS distinct_products,
SUM(od.quantity * p.price) AS total_spent
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN order_details od ON o.order_id = od.order_id
JOIN products p ON od.product_id = p.product_id
WHERE YEAR(o.order_date) = 2023
GROUP BY c.country, c.customer_id, c.customer_name -- 按国家和客户分组
HAVING total_spent > 1000
ORDER BY c.country, total_spent DESC;
题目 4.5 : 在 employees (emp_id, emp_name, manager_id) 表下: 查询每个经理 (manager_name) 及其直接下属的数量 (COUNT(emp_id)) 和下属的平均工资 (假设有 salary 列),列出下属数量最多的前 5 位经理。
sql
SELECT m.emp_name AS manager_name,
COUNT(e.emp_id) AS direct_reports_count,
AVG(e.salary) AS avg_subordinate_salary
FROM employees e
JOIN employees m ON e.manager_id = m.emp_id -- 连接自身,e 是下属,m 是经理
GROUP BY m.emp_id, m.emp_name -- 按经理分组
ORDER BY direct_reports_count DESC
LIMIT 5;
总结
- 聚合函数 (
COUNT,SUM,AVG,MAX,MIN,GROUP_CONCAT): 用于计算汇总统计值。 - 分组查询 (
GROUP BY) : 用于将数据分成组,以便在每个组上应用聚合函数。HAVING用于对分组结果进行筛选。 - 联合查询 (
JOIN) : 用于组合多个相关表中的数据。掌握INNER JOIN,LEFT JOIN,RIGHT JOIN,CROSS JOIN,SELF JOIN的用法和区别是核心。 - 综合运用 : 在实际查询中,通常需要组合使用这些技术。理解 SQL 语句的执行顺序 (
FROM->JOIN->WHERE->GROUP BY->HAVING->SELECT->ORDER BY->LIMIT) 对于编写正确高效的查询至关重要。