第八章 排序 十一、外部排序

目录

一、定义

二、例子

三、时间开销分析

四、优化

1、多路归并

优化结果及缺点

2、减少初始归并段数量

五、总结

六、附加


一、定义

  1. 外部排序是一种用于处理大量数据的排序算法,由于数据量太大无法全部载入内存,所以需要将数据分批读取到内存中进行排序,这个过程称为"外部排序"。
  2. 外部排序通常使用两个或多个磁盘文件进行排序,其中一个文件是输入文件,另一个或多个文件是输出文件。
  3. 外部排序使用归并排序或快速排序等算法对数据进行排序,并将排序结果写入磁盘文件。
  4. 外部排序常用于处理大型数据库、搜索引擎索引、大型文件的排序等场景。

二、例子

1、我们要将磁盘内的数据进行升序排序

2、首先将第一个磁盘块和第二个磁盘块放入到输入缓冲区,然后将它们进行内部排序。

排序前

排序后

3、经过内部排序后再将它们放回磁盘块,我们就可以获得一个有序的"归并段"

4、然后再让后面的两个磁盘块进行内部排序

5、重复如此,我们就可以获得8个有序的"归并段",16块有序磁盘块

6、然后我们使用2路归并将归并段1和归并段2进行归并

7、每次挑出最小的数放入输出缓冲区,最后得到一个升序的磁盘块

8、我们将输出缓冲区的数据输出以后,接下来继续按照升序放入输出缓冲区

9、此时输入缓冲区空了,我们就要让最近的的一个磁盘块进来填充

10、继续进行比较输出

11、再次将磁盘块的数据填充进入输入缓冲区

12、重复如此,就完成归并段1和2进行升序排列了

13、每两个归并段都这样归并,我们就从8个有序归并段,缩减成了4个有序归并段

14、同样的,我们将归并段两两进行归并,这样就能将4个有序归并段,缩减成了2个有序归并段

15、再次进行归并,直到剩余一个整体

三、时间开销分析

四、优化

1、多路归并

优化结果及缺点

2、减少初始归并段数量

五、总结

六、附加

相关推荐
WIN赢15 分钟前
【二叉树的递归算法与层序遍历算法】
数据结构
Zzzzmo_41 分钟前
【Java】杨辉三角、洗牌算法
java·数据结构·算法
岑梓铭2 小时前
《考研408数据结构》第四章(串和串的算法)复习笔记
数据结构·笔记·考研·算法
胖咕噜的稞达鸭3 小时前
缝合怪deque如何综合list和vector实现及仿函数模板如何优化priority_queue实现
数据结构·c++·算法·链表·list
暴力求解5 小时前
数据结构---栈和队列详解(下)
数据结构
jinmo_C++5 小时前
数据结构_哈夫曼编码(Huffman)完整指南:从原理到实现,附考研真题详解
数据结构·考研
那我掉的头发算什么5 小时前
【数据结构】优先级队列(堆)
java·开发语言·数据结构·链表·idea
如竟没有火炬6 小时前
LRU缓存——双向链表+哈希表
数据结构·python·算法·leetcode·链表·缓存
爱吃生蚝的于勒6 小时前
【Linux】零基础学会Linux之权限
linux·运维·服务器·数据结构·git·算法·github
爱编程的化学家7 小时前
代码随想录算法训练营第27天 -- 动态规划1 || 509.斐波那契数列 / 70.爬楼梯 / 746.使用最小花费爬楼梯
数据结构·c++·算法·leetcode·动态规划·代码随想录