【CMU 15-445】Lecture 10: Sorting & Aggregations Algorithms 学习笔记

Sorting & Aggregations Algorithms

  • Sorting
    • [Top-N Heap Sort](#Top-N Heap Sort)
    • [External Merge Sort](#External Merge Sort)
      • [2-WAY External Merge Sort](#2-WAY External Merge Sort)
      • [K-WAY External Merge Sort](#K-WAY External Merge Sort)
      • [Double Buffering Optimization](#Double Buffering Optimization)
  • Aggregations

本节课主要介绍的是数据库系统中的排序算法以及聚合算法

Sorting

排序算法分为两种:如果内存能够容纳一个关系的所有tuple,那么可以用任意的标准排序算法在内存中进行排序,如插入排序、快速排序等等;如果内存无法容纳一个关系的所有tuple,则只能使用外排序。

Top-N Heap Sort

如果一个查询包含ORDER BY加上LIMIT关键字的组合,则可以使用Top-N堆排序的做法,如下图所示,推排序的细节就不多讲了。

External Merge Sort

一种外排序算法是外部归并排序,主要分为以下两个步骤:

  • Divide:将文件中的记录分为若干个归并段,使得每个归并段都能被加载到内存中进行单独排序
  • Conquer:将若干个有序的归并段merge成最终结果

2-WAY External Merge Sort

一个简单的merge做法是二路归并,如下图例子所示,每次merge合并两个归并段,以此类推直到所有归并段合成一个段为止。在二路归并做法中,只需要内存提供三个缓存页(两个用于加载待merge的归并段,一个用于存放merge结果)。我们可以简单的估计该做法的IO复杂度,假设存放tuplepage数量为 N N N,则我们最多需要做 ⌈ l o g 2 N ⌉ \lceil log_2N \rceil ⌈log2N⌉次归并,且每次归并需要对每个page进行读写,共计 2 N 2N 2N次IO操作,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g 2 N ⌉ ) 2N*(1+\lceil log_2N \rceil) 2N∗(1+⌈log2N⌉)(需要加上第一次做内部排序的IO)

K-WAY External Merge Sort

更进阶的做法是将二路归并扩展至K路归并,因为二路归并中没有充分利用内存缓冲区(只是用了三页缓冲页)。假设内存缓冲页数量为 B B B,可以在排序阶段就充分利用缓冲页进行优化,一次性加载 B B B个page进行排序,相当于把 B B B个page合成一个归并段了,这样子在开始归并之前就只有 ⌈ N B ⌉ \lceil \frac{N}{B} \rceil ⌈BN⌉个归并段;在归并阶段,最多可以利用 B − 1 B-1 B−1个缓存页进行多路归并(需要预留一个缓存页存放归并结果)。于是,最多只需执行 ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ \lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil ⌈logB−1⌈BN⌉⌉次归并,每次归并的IO次数仍为 2 N 2N 2N,故总复杂度为 2 N ∗ ( 1 + ⌈ l o g B − 1 ⌈ N B ⌉ ⌉ ) 2N*(1+\lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil) 2N∗(1+⌈logB−1⌈BN⌉⌉)(需要加上第一次做内部排序的IO)

Double Buffering Optimization

可以使用两个buffer,当其中一个buffer在做排序处理时,将下一步需要处理的数据预加载到另一个buffer中,充分利用CPU与IO资源。

Aggregations

聚合操作一般有两种实现方式:排序以及哈希。

Sorting

在聚合的排序实现方式中,算法首先按照GROUP BY的keytuple进行排序,使用第一节所讲的内排序或外排序。然后按序遍历元组进行聚合(因为此时相同key的元组处于相邻位置)

Hashing

在很多情况下,聚合操作并不要求元组是有序的,可以使用效率更高的哈希实现方法进行替代。哈希实现方式分为两个步骤:

  • Partition:首先使用哈希函数h1将所有tuple按照GROUP BY的key进行分区(若内存中有 B B B个缓存页,则分为 B − 1 B-1 B−1个分区)
  • ReHash:对于每一个分区,使用哈希函数h2在内存中建立哈希表,并维护聚合所需信息(如最小值、总和等)

一个简单的例子如下图所示,如果想要求每一个分组的平均值,则在ReHash阶段,需要维护COUNT和SUM以便最后算出平均值。

相关推荐
计算机学长felix5 分钟前
基于SpringBoot的“面向校园的助力跑腿系统”的设计与实现(源码+数据库+文档+PPT)
数据库·spring boot·后端
金仓拾光集1 小时前
__工艺数据管理的范式转变:金仓数据库替代MongoDB实操实践__
数据库·mongodb
xiaogg36781 小时前
redis-cluster集群配置部署
数据库·redis·缓存
运维小文1 小时前
MySQL高可用方案MIC&mysqlCluster+mysqlRouter
数据库·mysql·mic·mysql高可用·mysqlcluster·mysqlrouter
不剪发的Tony老师1 小时前
Redis Commander:一款基于Web、免费开源的Redis管理工具
数据库·redis
金仓拾光集2 小时前
__金仓数据库替代MongoDB护航医疗隐私:医院患者随访记录安全存储实践__
数据库·安全·mongodb
Tiandaren2 小时前
自用提示词02 || Prompt Engineering || RAG数据切分 || 作用:通过LLM将文档切分成chunks
数据库·pytorch·深度学习·oracle·prompt·rag
武清伯MVP2 小时前
阮一峰《TypeScript 教程》学习笔记——类型映射
笔记·学习·typescript
ouliten3 小时前
cuda编程笔记(34)-- 内存访问控制与缓存提示
笔记·cuda