【CMU 15-445】Lecture 10: Sorting & Aggregations Algorithms 学习笔记

Sorting & Aggregations Algorithms

  • Sorting
    • [Top-N Heap Sort](#Top-N Heap Sort)
    • [External Merge Sort](#External Merge Sort)
      • [2-WAY External Merge Sort](#2-WAY External Merge Sort)
      • [K-WAY External Merge Sort](#K-WAY External Merge Sort)
      • [Double Buffering Optimization](#Double Buffering Optimization)
  • Aggregations

本节课主要介绍的是数据库系统中的排序算法以及聚合算法

Sorting

排序算法分为两种:如果内存能够容纳一个关系的所有tuple,那么可以用任意的标准排序算法在内存中进行排序,如插入排序、快速排序等等;如果内存无法容纳一个关系的所有tuple,则只能使用外排序。

Top-N Heap Sort

如果一个查询包含ORDER BY加上LIMIT关键字的组合,则可以使用Top-N堆排序的做法,如下图所示,推排序的细节就不多讲了。

External Merge Sort

一种外排序算法是外部归并排序,主要分为以下两个步骤:

  • Divide:将文件中的记录分为若干个归并段,使得每个归并段都能被加载到内存中进行单独排序
  • Conquer:将若干个有序的归并段merge成最终结果

2-WAY External Merge Sort

一个简单的merge做法是二路归并,如下图例子所示,每次merge合并两个归并段,以此类推直到所有归并段合成一个段为止。在二路归并做法中,只需要内存提供三个缓存页(两个用于加载待merge的归并段,一个用于存放merge结果)。我们可以简单的估计该做法的IO复杂度,假设存放tuplepage数量为 N N N,则我们最多需要做 ⌈ l o g 2 N ⌉ \lceil log_2N \rceil ⌈log2N⌉次归并,且每次归并需要对每个page进行读写,共计 2 N 2N 2N次IO操作,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g 2 N ⌉ ) 2N*(1+\lceil log_2N \rceil) 2N∗(1+⌈log2N⌉)(需要加上第一次做内部排序的IO)

K-WAY External Merge Sort

更进阶的做法是将二路归并扩展至K路归并,因为二路归并中没有充分利用内存缓冲区(只是用了三页缓冲页)。假设内存缓冲页数量为 B B B,可以在排序阶段就充分利用缓冲页进行优化,一次性加载 B B B个page进行排序,相当于把 B B B个page合成一个归并段了,这样子在开始归并之前就只有 ⌈ N B ⌉ \lceil \frac{N}{B} \rceil ⌈BN⌉个归并段;在归并阶段,最多可以利用 B − 1 B-1 B−1个缓存页进行多路归并(需要预留一个缓存页存放归并结果)。于是,最多只需执行 ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ \lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil ⌈logB−1⌈BN⌉⌉次归并,每次归并的IO次数仍为 2 N 2N 2N,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ ) 2N*(1+\lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil) 2N∗(1+⌈logB−1⌈BN⌉⌉)(需要加上第一次做内部排序的IO)

Double Buffering Optimization

可以使用两个buffer,当其中一个buffer在做排序处理时,将下一步需要处理的数据预加载到另一个buffer中,充分利用CPU与IO资源。

Aggregations

聚合操作一般有两种实现方式:排序以及哈希。

Sorting

在聚合的排序实现方式中,算法首先按照GROUP BY的keytuple进行排序,使用第一节所讲的内排序或外排序。然后按序遍历元组进行聚合(因为此时相同key的元组处于相邻位置)

Hashing

在很多情况下,聚合操作并不要求元组是有序的,可以使用效率更高的哈希实现方法进行替代。哈希实现方式分为两个步骤:

  • Partition:首先使用哈希函数h1将所有tuple按照GROUP BY的key进行分区(若内存中有 B B B个缓存页,则分为 B − 1 B-1 B−1个分区)
  • ReHash:对于每一个分区,使用哈希函数h2在内存中建立哈希表,并维护聚合所需信息(如最小值、总和等)

一个简单的例子如下图所示,如果想要求每一个分组的平均值,则在ReHash阶段,需要维护COUNT和SUM以便最后算出平均值。

相关推荐
LUCIAZZZ2 小时前
简单的SQL语句的快速复习
java·数据库·sql
Elastic 中国社区官方博客3 小时前
使用真实 Elasticsearch 进行高级集成测试
大数据·数据库·elasticsearch·搜索引擎·全文检索·jenkins·集成测试
@_@哆啦A梦4 小时前
Redis 基础命令
java·数据库·redis
Fhd-学习笔记4 小时前
《大语言模型》综述学习笔记
笔记·学习·语言模型
fajianchen4 小时前
MySQL 索引存储结构
数据库·mysql
想做富婆4 小时前
oracle: 多表查询之联合查询[交集intersect, 并集union,差集minus]
数据库·oracle·联合查询
简知圈5 小时前
【04-自己画P封装,并添加已有3D封装】
笔记·stm32·单片机·学习·pcb工艺
YxVoyager5 小时前
GAMES101学习笔记(五):Texture 纹理(纹理映射、重心坐标、纹理贴图)
笔记·学习·图形渲染
xianwu5436 小时前
反向代理模块jmh
开发语言·网络·数据库·c++·mysql
Leven1995276 小时前
Flink (十三) :Table API 与 DataStream API 的转换 (一)
数据库·sql·flink