排序:外部排序算法分析

1.外存与内存之间的数据交换

1.外存(磁盘)

操作系统以"块"为单位对磁盘存储空间进行管理,如:每块大小1KB

各个磁盘块内存放着各种各样的数据。

2.内存

磁盘的读/写以"块"为单位数据读入内存后才能被修改修改完了还要写回磁盘。

2.外部排序的原理

外部排序:数据元素太多,无法一次全部读入内存进行排序。

使用"归并排序"的方法,最少只需在内存中分配3块大小的缓冲区即可对任意一个大文件进行排序。

1.步骤
  1. 生成r个初始归并段(对L个记录进行内部排序,组成一个有序的初始归并段)
  2. 进行S趟k路归并, s = [ l o g k r ] s= [log_kr] s=[logkr]
2.构造初始归并段

"归并排序"要求各个子序列有序,每次读入两个块的内容,进行内部排序后写回磁盘。

3.进行k路归并
  1. 把k个归并段的块读入k个输入缓冲区
  2. 用"归并排序"的方法从k个归并段中选出几个最小记录暂存到输出缓冲区中
  3. 当输出缓冲区满时,写出外存
3.时间开销分析

外部排序时间开销=读写外存的时间+内部排序所需时间+内部归并所需时间。

3.影响外部排序效率的因素

主要因素是磁盘IO的读写次数。

4.优化思路

k路平衡归并:

  • ①最多只能有k个段归并为一个;
  • ②每一趟归并中,若有m 个归并段参与归并,则经过这一趟处理得到[m/k]个新的归并段
1.增加归并路数k,进行多路平衡归并
  • 重要结论:采用多路归并可以减少归并趟数,从而减少磁盘IO(读写)次数。
  • 对r个初始归并段,做k路归并,则归并树可用k叉树表示
  • 若树高为h,则归并趟数= h − 1 = [ l o g k r ] h-1 = [log_kr] h−1=[logkr],
  • k越大,r越小,归并趟数越少,读写磁由次数钺小.

推导:k叉树第h层最多有 k h − 1 k^{h-1} kh−1个结点,则 r ≤ k h − 1 r ≤k^{h-1} r≤kh−1, ( h − 1 ) 最小 = 「 [ l o g k r ] (h-1)最小= 「[log_kr] (h−1)最小=「[logkr]

2.多路归并带来的负面影响:
  • ①k路归并时,需要开辟k个输入缓冲区,内存开销增加。
  • ②每挑选一个关键字需要对比关键字(k-1)次,内部归并所需时间增加(可以使用败者树减少对比次数)
3.减少初始归并段数量

结论:若能增加初始归并段的长度,则可减少初始归并段数量r。

可用"置换-选择排序"进一步减少初始归并段数量。

相关推荐
历程里程碑3 分钟前
滑动窗口---- 无重复字符的最长子串
java·数据结构·c++·python·算法·leetcode·django
2501_940315261 小时前
航电oj:首字母变大写
开发语言·c++·算法
CodeByV2 小时前
【算法题】多源BFS
算法
TracyCoder1232 小时前
LeetCode Hot100(18/100)——160. 相交链表
算法·leetcode
浒畔居2 小时前
泛型编程与STL设计思想
开发语言·c++·算法
独处东汉2 小时前
freertos开发空气检测仪之输入子系统结构体设计
数据结构·人工智能·stm32·单片机·嵌入式硬件·算法
乐迪信息2 小时前
乐迪信息:AI防爆摄像机在船舶监控的应用
大数据·网络·人工智能·算法·无人机
放荡不羁的野指针2 小时前
leetcode150题-滑动窗口
数据结构·算法·leetcode
小龙报3 小时前
【C语言进阶数据结构与算法】单链表综合练习:1.删除链表中等于给定值 val 的所有节点 2.反转链表 3.链表中间节点
c语言·开发语言·数据结构·c++·算法·链表·visual studio
TracyCoder1233 小时前
LeetCode Hot100(13/100)——238. 除了自身以外数组的乘积
算法·leetcode