排序：外部排序算法分析

Junglei-Rim2023-10-07 10:08

1.外存与内存之间的数据交换

1.外存（磁盘）

操作系统以"块"为单位对磁盘存储空间进行管理，如:每块大小1KB

各个磁盘块内存放着各种各样的数据。

2.内存

磁盘的读/写以"块"为单位数据读入内存后才能被修改修改完了还要写回磁盘。

2.外部排序的原理

外部排序:数据元素太多，无法一次全部读入内存进行排序。

使用"归并排序"的方法，最少只需在内存中分配3块大小的缓冲区即可对任意一个大文件进行排序。

1.步骤

生成r个初始归并段（对L个记录进行内部排序，组成一个有序的初始归并段）
进行S趟k路归并， s = $l o g k r$ s= $log_kr$ s= $logkr$

2.构造初始归并段

"归并排序"要求各个子序列有序，每次读入两个块的内容，进行内部排序后写回磁盘。

3.进行k路归并

把k个归并段的块读入k个输入缓冲区
用"归并排序"的方法从k个归并段中选出几个最小记录暂存到输出缓冲区中
当输出缓冲区满时，写出外存

3.时间开销分析

外部排序时间开销=读写外存的时间+内部排序所需时间+内部归并所需时间。

3.影响外部排序效率的因素

主要因素是磁盘IO的读写次数。

4.优化思路

k路平衡归并:

①最多只能有k个段归并为一个;
②每一趟归并中，若有m 个归并段参与归并，则经过这一趟处理得到 $m/k$ 个新的归并段

1.增加归并路数k,进行多路平衡归并

重要结论:采用多路归并可以减少归并趟数，从而减少磁盘IO(读写)次数。
对r个初始归并段，做k路归并，则归并树可用k叉树表示
若树高为h，则归并趟数= h − 1 = $l o g k r$ h-1 = $log_kr$ h−1= $logkr$ ,
k越大，r越小,归并趟数越少，读写磁由次数钺小.

推导:k叉树第h层最多有 k h − 1 k^{h-1} kh−1个结点,则 r ≤ k h − 1 r ≤k^{h-1} r≤kh−1， ( h − 1 ) 最小 = 「 $l o g k r$ (h-1)最小= 「 $log_kr$ (h−1)最小=「 $logkr$

2.多路归并带来的负面影响:

①k路归并时，需要开辟k个输入缓冲区，内存开销增加。
②每挑选一个关键字需要对比关键字(k-1)次，内部归并所需时间增加（可以使用败者树减少对比次数）

3.减少初始归并段数量

结论:若能增加初始归并段的长度，则可减少初始归并段数量r。

可用"置换-选择排序"进一步减少初始归并段数量。

上一篇：递归解析Json，实现生成可视化Tree+快速获取JsonPath | 京东云技术团队

下一篇：黑马JVM总结（二十六）

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？