1行程和用户
表:Trips
+-------------+----------+
| Column Name | Type |
+-------------+----------+
| id | int |
| client_id | int |
| driver_id | int |
| city_id | int |
| status | enum |
| request_at | date |
+-------------+----------+
id 是这张表的主键(具有唯一值的列)。
这张表中存所有出租车的行程信息。每段行程有唯一 id ,其中 client_id 和 driver_id 是 Users 表中 users_id 的外键。
status 是一个表示行程状态的枚举类型,枚举成员为(‘completed’, ‘cancelled_by_driver’, ‘cancelled_by_client’) 。
表:Users
+-------------+----------+
| Column Name | Type |
+-------------+----------+
| users_id | int |
| banned | enum |
| role | enum |
+-------------+----------+
users_id 是这张表的主键(具有唯一值的列)。
这张表中存所有用户,每个用户都有一个唯一的 users_id ,role 是一个表示用户身份的枚举类型,枚举成员为 (‘client’, ‘driver’, ‘partner’) 。
banned 是一个表示用户是否被禁止的枚举类型,枚举成员为 (‘Yes’, ‘No’) 。
取消率 的计算方式如下:(被司机或乘客取消的非禁止用户生成的订单数量) / (非禁止用户生成的订单总数)。
编写解决方案找出 "2013-10-01"
至 "2013-10-03"
期间非禁止用户(乘客和司机都必须未被禁止 )的取消率。非禁止用户即 banned 为 No 的用户,禁止用户即 banned 为 Yes 的用户。其中取消率 Cancellation Rate
需要四舍五入保留 两位小数 。
返回结果表中的数据 无顺序要求 。
结果格式如下例所示。
示例 1:
输入:
Trips 表:
+----+-----------+-----------+---------+---------------------+------------+
| id | client_id | driver_id | city_id | status | request_at |
+----+-----------+-----------+---------+---------------------+------------+
| 1 | 1 | 10 | 1 | completed | 2013-10-01 |
| 2 | 2 | 11 | 1 | cancelled_by_driver | 2013-10-01 |
| 3 | 3 | 12 | 6 | completed | 2013-10-01 |
| 4 | 4 | 13 | 6 | cancelled_by_client | 2013-10-01 |
| 5 | 1 | 10 | 1 | completed | 2013-10-02 |
| 6 | 2 | 11 | 6 | completed | 2013-10-02 |
| 7 | 3 | 12 | 6 | completed | 2013-10-02 |
| 8 | 2 | 12 | 12 | completed | 2013-10-03 |
| 9 | 3 | 10 | 12 | completed | 2013-10-03 |
| 10 | 4 | 13 | 12 | cancelled_by_driver | 2013-10-03 |
+----+-----------+-----------+---------+---------------------+------------+
Users 表:
+----------+--------+--------+
| users_id | banned | role |
+----------+--------+--------+
| 1 | No | client |
| 2 | Yes | client |
| 3 | No | client |
| 4 | No | client |
| 10 | No | driver |
| 11 | No | driver |
| 12 | No | driver |
| 13 | No | driver |
+----------+--------+--------+
输出:
+------------+-------------------+
| Day | Cancellation Rate |
+------------+-------------------+
| 2013-10-01 | 0.33 |
| 2013-10-02 | 0.00 |
| 2013-10-03 | 0.50 |
+------------+-------------------+
解释:
2013-10-01:
- 共有 4 条请求,其中 2 条取消。
- 然而,id=2 的请求是由禁止用户(user_id=2)发出的,所以计算时应当忽略它。
- 因此,总共有 3 条非禁止请求参与计算,其中 1 条取消。
- 取消率为 (1 / 3) = 0.33
2013-10-02:
- 共有 3 条请求,其中 0 条取消。
- 然而,id=6 的请求是由禁止用户发出的,所以计算时应当忽略它。
- 因此,总共有 2 条非禁止请求参与计算,其中 0 条取消。
- 取消率为 (0 / 2) = 0.00
2013-10-03:
- 共有 3 条请求,其中 1 条取消。
- 然而,id=8 的请求是由禁止用户发出的,所以计算时应当忽略它。
- 因此,总共有 2 条非禁止请求参与计算,其中 1 条取消。
- 取消率为 (1 / 2) = 0.50
思路:
- 从 Trips 表中选择请求日期(request_at)和取消率(Cancellation Rate)字段。
- 在查询条件中限定请求日期在2013年10月1日至10月3日之间。
- 使用子查询来排除在 Users 表中被封禁(banned='Yes')的客户和司机。
- 使用条件表达式(IF 函数)来检查每次旅程的状态是否为"completed",如果不是,则计算取消率。
- 最后按请求日期分组,以得出每天的取消率。
代码:
cpp
select request_at 'Day', -- 选择请求日期作为"Day"
round(count(if(status!='completed',status,null))/count(*),2) 'Cancellation Rate' -- 计算取消率
from Trips
where request_at between '2013-10-01' and '2013-10-03' -- 筛选请求日期在2013年10月1日至10月3日期间的记录
and client_id not in (select users_id from Users where banned='Yes') -- 排除被封禁用户作为客户
and driver_id not in (select users_id from Users where banned='Yes') -- 排除被封禁用户作为司机
group by request_at; -- 按请求日期分组
2体育馆的人流量
表:Stadium
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| id | int |
| visit_date | date |
| people | int |
+---------------+---------+
visit_date 是该表中具有唯一值的列。
每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people)
每天只有一行记录,日期随着 id 的增加而增加
编写解决方案找出每行的人数大于或等于 100
且 id
连续的三行或更多行记录。
返回按 visit_date
升序排列 的结果表。
查询结果格式如下所示。
示例 1:
输入:
Stadium 表:
+------+------------+-----------+
| id | visit_date | people |
+------+------------+-----------+
| 1 | 2017-01-01 | 10 |
| 2 | 2017-01-02 | 109 |
| 3 | 2017-01-03 | 150 |
| 4 | 2017-01-04 | 99 |
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-09 | 188 |
+------+------------+-----------+
输出:
+------+------------+-----------+
| id | visit_date | people |
+------+------------+-----------+
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-09 | 188 |
+------+------------+-----------+
解释:
id 为 5、6、7、8 的四行 id 连续,并且每行都有 >= 100 的人数记录。
请注意,即使第 7 行和第 8 行的 visit_date 不是连续的,输出也应当包含第 8 行,因为我们只需要考虑 id 连续的记录。
不输出 id 为 2 和 3 的行,因为至少需要三条 id 连续的记录。
思路:
- 从 stadium 表中使用 t1、t2、t3 三个表别名分别代表三个场馆。
- 在 WHERE 子句中,筛选出人数大于等于100的场馆记录。
- 使用嵌套的 OR 逻辑运算符来确定 t1、t2、t3 三个场馆的 id 之间的关系:
- t1, t2, t3 的 id 分别相差1和2;
- t2, t1, t3 的 id 分别相差1和2;
- t3, t2, t1 的 id 分别相差1和2。
- 使用 distinct 关键字去重,确保结果集中没有重复的记录。
- 最后按 t1 表中的 id 字段进行升序排序,以便更清晰地展示满足条件的场馆记录。
代码:
cpp
select distinct t1.* -- 选择所有 t1 表中的字段
from stadium t1, stadium t2, stadium t3 -- 从 stadium 表中分别使用 t1、t2、t3 三个表别名
where t1.people >= 100 and t2.people >= 100 and t3.people >= 100 -- 筛选满足人数大于等于100的记录
and
(
(t1.id - t2.id = 1 and t1.id - t3.id = 2 and t2.id - t3.id = 1) -- t1, t2, t3 的 id 差距均为1或2
or
(t2.id - t1.id = 1 and t2.id - t3.id = 2 and t1.id - t3.id = 1) -- t2, t1, t3 的 id 差距均为1或2
or
(t3.id - t2.id = 1 and t2.id - t1.id = 1 and t3.id - t1.id = 2) -- t3, t2, t1 的 id 差距均为1或2
)
order by t1.id; -- 按照 t1 表的 id 升序排序
3部门工资前三高的所有员工
表: Employee
+--------------+---------+
| Column Name | Type |
+--------------+---------+
| id | int |
| name | varchar |
| salary | int |
| departmentId | int |
+--------------+---------+
id 是该表的主键列(具有唯一值的列)。
departmentId 是 Department 表中 ID 的外键(reference 列)。
该表的每一行都表示员工的ID、姓名和工资。它还包含了他们部门的ID。
表: Department
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| id | int |
| name | varchar |
+-------------+---------+
id 是该表的主键列(具有唯一值的列)。
该表的每一行表示部门ID和部门名。
公司的主管们感兴趣的是公司每个部门中谁赚的钱最多。一个部门的 高收入者 是指一个员工的工资在该部门的 不同 工资中 排名前三 。
编写解决方案,找出每个部门中 收入高的员工 。
以 任意顺序 返回结果表。
返回结果格式如下所示。
示例 1:
输入:
Employee 表:
+----+-------+--------+--------------+
| id | name | salary | departmentId |
+----+-------+--------+--------------+
| 1 | Joe | 85000 | 1 |
| 2 | Henry | 80000 | 2 |
| 3 | Sam | 60000 | 2 |
| 4 | Max | 90000 | 1 |
| 5 | Janet | 69000 | 1 |
| 6 | Randy | 85000 | 1 |
| 7 | Will | 70000 | 1 |
+----+-------+--------+--------------+
Department 表:
+----+-------+
| id | name |
+----+-------+
| 1 | IT |
| 2 | Sales |
+----+-------+
输出:
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT | Max | 90000 |
| IT | Joe | 85000 |
| IT | Randy | 85000 |
| IT | Will | 70000 |
| Sales | Henry | 80000 |
| Sales | Sam | 60000 |
+------------+----------+--------+
解释:
在IT部门:
- Max的工资最高
- 兰迪和乔都赚取第二高的独特的薪水
- 威尔的薪水是第三高的
在销售部:
- 亨利的工资最高
- 山姆的薪水第二高
- 没有第三高的工资,因为只有两名员工
思路:
-
从 Employee 表和 Department 表中选择部门名称(Department)、员工名称(Employee)和工资(Salary),同时使用
JOIN
来关联这两个表,关联条件是 Employee 表中的 DepartmentId 字段与 Department 表中的 id 字段相匹配。 -
在子查询中使用 dense_rank
()
函数来为每个部门的员工工资进行降序排名,生成密集排名值 rk。dense_rank()
函数会根据每个部门的工资高低对员工进行排名,且不会有排名值的间隔。 -
将第2步生成的结果作为临时表 t,并筛选出排名在前3位以内的记录,即 where
t.rk <= 3
。 -
最终查询结果包括符合条件的部门、员工和工资信息。
DENSE_RANK()
是 SQL 中的一个窗口函数,用于计算一个值的密集排名,即在结果集中按照指定的排序条件为每个行分配一个唯一的整数排名值,并且没有间隔。下面是 DENSE_RANK()
的基本用法和一个相关例子:
基本用法:
sql
DENSE_RANK() OVER (PARTITION BY col1 ORDER BY col2)
PARTITION BY
用于指定分组的字段或表达式,根据该字段分组计算排名。ORDER BY
用于指定根据哪个字段或表达式排序计算排名,可以是升序或降序
相关例子:
假设有一个学生成绩表 Scores,包含字段 StudentID、Subject 和 Score。我们想要计算每个科目的学生成绩密集排名(按分数从高到低排名),可以使用 DENSE_RANK()
函数如下:
sql
SELECT StudentID, Subject, Score,
DENSE_RANK() OVER (PARTITION BY Subject ORDER BY Score DESC) AS DenseRank
FROM Scores;
上面的例子中,DENSE_RANK()
函数根据科目(Subject)对学生的成绩(Score)进行降序排名,生成密集的排名值 DenseRank。在每个科目内,排名值不会有间隔,即如果有相同的分数,会跳过后续的排名值以保持连续。
本题代码:
sql
-- 选择部门、雇员和工资
select Department, Employee, Salary
from (
-- 从雇员表 e 和部门表 d 中选择部门名为 Department,雇员名为 Employee,工资为 Salary
-- 使用 dense_rank() 函数根据部门ID对工资进行降序排名,生成排名为 rk
select d.name as Department, e.name as Employee, e.salary as Salary,
dense_rank() over(partition by DepartmentId order by salary desc) as rk
from Employee as e
join Department as d
on e.DepartmentId = d.id
) as t
-- 只选择排名前三的记录
where t.rk <= 3;