【数据结构】排序

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

对于数据，我们前面已经学习了几种结构存储我们的数据，但是数据很多时候还要方便找到，这时候排序算法能让我们快速找到符合我们某些要求的数据，下面让我们了解一下常见的排序算法。

一、排序的概念及其运用

1.1 排序的概念

排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。

稳定性：假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，r $i$ = r $j$ ，且r $i$ 在r $j$ 之前，而在排序后的序列中，r $i$ 仍在r $j$ 之前，则称这种排序算法是稳定的，否则称为不稳定的。

内部排序：数据全部放在内存中排序。

外部排序：数据元素太多不能同时放在内存中，根据排序过程的要求不能再内外存之间移动数据的排序。

1.2 排序的运用

这个按键想必我们在很多软件上都能看到，所以排序在我们生活中无处不在。

1.3 常见的排序算法

二、常见排序算法的实现

2.1 插入排序

2.1.1 基本思想

直接插入排序是一种简单的插入排序算法，其基本思想是：把待排序的记录按其关键码值得大小逐个插入到一个已经排好序的有序序列中，直到所有的记录插入完为止，得到一个新的有序序列。

实际生活中我们就已经有了这种思想，打扑克时将新来的牌插入到手中有序的牌中。

2.1.2 直接插入排序

当插入到第i（i >= 1）个元素时，前面的array $0$ , array $1$ , array $2$ ,..., array $i - 1$ 已经排好了序，此时用array $i$ 的排序码与前面的array $i - 1$ , array $i - 2$ , ...的排序码顺序比较，找到合适的插入位置将array $i$ 插入，原来位置上的元素顺序后移。

直接插入排序的实现：

cpp 复制代码

void InsertSort(int* a, int n)
{
	for (int i = 0; i < n - 1; i++)
	{
		// [0, end] end+1
		int end = i;
		int tmp = a[end + 1];
		while (end >= 0)
		{
            // 插入数据小于当前元素数据，当前元素数据向后移动
			if (tmp < a[end])
			{
				a[end + 1] = a[end];
				--end;
			}
            // 插入数据大于等于当前元素数据，直接插入到当前位置并退出循环
			else
			{
				break;
			}
		}

		a[end + 1] = tmp;
	}
}

直接插入排序的特性总结：

元素集合越接近有序效，直接插入排序算法的时间效率越高
时间复杂度：O(N^2)
空间复杂度：O(1)
稳定性：稳定

2.1.3 希尔排序（缩小增量排序）

希尔排序又称缩小增量排序，希尔排序算法的基本思想是：先选定一个整数，把待排序文件中所有记录分成n个组，所有距离为n的记录划分为一个组，并对每一组内的记录进行直接插入排序，然后缩小距离，再次对已经排序的记录分组，每一组排序，重复上述分组和排序的工作。当n=1时，所有记录在统一组内排好序。

希尔排序的实现：

cpp 复制代码

void ShellSort(int* a, int n)
{
	int gap = n;
	while (gap > 1)
	{
		//gap /= 2;
		gap = gap / 3 + 1; 

		// 我们能发现希尔排序和直接插入排序代码很相近
		// 在外面多了个循环并多了一步计算gap
		// 并在下面的循环比较中，将直接插入排序的1改为gap即可
		for (int i = 0; i < n - gap; i++)
		{
			int end = i;
			int tmp = a[end + gap];
			while (end >= 0)
			{
				if (tmp < a[end])
				{
					a[end + gap] = a[end];
					end -= gap;
				}
				else
				{
					break;
				}
			}

			a[end + gap] = tmp;
		}
	}
}

希尔排序的特性总结：

希尔排序是对直接插入排序的优化。
当gap > 1时都是预排序，目的是让数组更接近于有序。当gap == 1时，数组已经接近有序的了，这样进行直接插入排序就能很快完成，这样整体而言可以达到优化的效果。
希尔排序的时间复杂度不好计算，因为gap的取值方法有很多，导致很难去计算。
稳定性：不稳定

2.2 选择排序

2.2.1 基本思想

每一次从待排序的数据元素中取出最小（或最大）的一个元素，存放在序列的起始位置，直到全部的待排序的数据元素排完。

2.2.2 直接选择排序

在元素集合array $i$ --- array $n - 1$ 中选择关键码最大（小）的数据元素
若它不是这组元素中的最后一个（第一个）元素，则将它与这组元素中的最后一个（第一个）元素交换
在剩余的array $i$ --- array $n - 2$ （array $i + 1$ --- array $n - 1$ ）集合中，重复上述步骤，直至集合中只剩下一个元素

直接选择排序的实现：

cpp 复制代码

// 这个算法是同时选择出最大的和最小的
// 将最大的放在区间最后，最小的放在区间最前
// 然后区间左边和右边都向里缩小
void SelectSort(int* a, int n)
{
	int begin = 0, end = n - 1;

	while (begin < end)
	{
		// 选出最小值和最大值的位置
		int mini = begin, maxi = begin;
		for (int i = begin + 1; i <= end; i++)
		{
			if (a[i] < a[mini])
			{
				mini = i;
			}

			if (a[i] > a[maxi])
			{
				maxi = i;
			}
		}

		Swap(&a[begin], &a[mini]);
		if (maxi == begin)
		{
			maxi = mini;
		}

		Swap(&a[end], &a[maxi]);
		++begin;
		--end;
	}
}

直接选择排序的特性总结：

直接选择排序算法十分容易理解，但是效率不是很好，实际中很少使用
时间复杂度：O(N^2)
空间复杂度：O(1)
稳定性：不稳定

2.2.3 堆排序

堆排序（HeapSort）是指利用堆积树（堆）这种数据结构所设计的一种排序算法，它是选择排序的一种，它是通过堆来进行选择数据，需要注意的是排升序要建大堆，排降序要建小堆。

堆排序的实现：

cpp 复制代码

void AdjustDown(int* a, int n, int parent)
{
	int child = parent * 2 + 1;
	while (child < n)
	{
		// 假设法，选出左右孩子中大的那个孩子
		if (child + 1 < n && a[child + 1] > a[child])
		{
			++child;
		}

		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}

// 升序，建大堆还是小堆呢？大堆
// O(N*logN)
void HeapSort(int* a, int n)
{
	// a数组直接建堆 O(N)
	for (int i = (n - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(a, n, i);
	}

	// O(N*logN)
	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		--end;
	}
}

堆排序的特性总结：

堆排序使用堆来选树，效率高了很多
时间复杂度：O(N*logN)
空间复杂度：O(1)
稳定性：不稳定

2.3 交换排序

2.3.1 基本思想

所谓交换，就是根据序列中两个记录键值的比较结果来交换这两个记录在数据中的位置，交换排序的特点是：将键值较大的记录向序列的尾部移动，将键值较小的记录向序列的头部移动。

2.3.2 冒泡排序

冒泡排序大家肯定都已经十分熟悉，这里直接简单提一下特性。

冒泡排序的特性总结：

冒泡排序是一种非常容易理解的排序
时间复杂度：O(N^2)
空间复杂度：O(1)
稳定性：稳定

2.3.3 快速排序（重点）

快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法，其基本思想为：人去待排序元素序列中的某元素作为基准值，按照该排序码将待排序分割成两个子序列，左子序列中所有元素均小于基准值，右子序列中所有元素均大于基准值，然后对左右子序列重复该操作，知道所有元素都排列在相应位置上为止。

cpp 复制代码

// 假设按照升序对array数组中[left, right)区间中的元素进行排序
void QuickSort(int array[], int left, int right)
{
	if (right - left <= 1)
		return;

	// 按照基准值对array数组的 [left, right)区间中的元素进行划分
	int keyi = partion(array, left, right);

	// 划分成功后以keyi为边界形成了左右两部分 [left, keyi) 和 [keyi+1, right)
	// 递归排[left, keyi)
	QuickSort(array, left, keyi);

	// 递归排[keyi+1, right)
	QuickSort(array, keyi + 1, right);
}

上面代码是快速排序的主框架，能够发现与二叉树前序遍历代码非常相像，我们可以根据二叉树前序遍历的思路快速写出这个主框架，后面只要分析如何按照基准值来对区间中的数据进行划分即可。

2.3.3.1 快速排序三个版本

Hoare版本
找到一个基准值（这里默认区间最左边的元素为基准值）
让一个指针 right 指向区间最右边的元素，一个指针 left 指向区间最左边的元素
先让 right 向左走，找到一个小于基准值的元素后停止
然后让 left 向右走，找到一个大于基准值的元素后停止
交换 right 和 left 指向的元素
重复 3-5 的步骤，直到 right 与 left 指向同一个元素，退出循环
让基准值（最左边元素）与 left 指向的元素交换
递归到区间 $最左边, 基准值当前位置 - 1$ 再次重复
递归到区间 $基准值当前位置 + 1, 最右边$ 再次重复
当区间只有一个值或者不存在时直接返回，已经是最小子问题（最先执行）

代码：

cpp 复制代码

void QuickSort(int* a, int left, int right)
{
	// 区间只有一个值或者不存在就是最小子问题
	if (left >= right)
		return;

	int begin = left, end = right;

	int keyi = left;
	while (left < right)
	{
		// right先走，找小
		while (left < right && a[right] >= a[keyi])
		{
			--right;
		}

		// left再走，找大
		while (left < right && a[left] <= a[keyi])
		{
			++left;
		}

		Swap(&a[left], &a[right]);
	}

	Swap(&a[left], &a[keyi]);
	keyi = left;

	// [begin, keyi-1]keyi[keyi+1, end]
	QuickSort1(a, begin, keyi - 1);
	QuickSort1(a, keyi + 1, end);
}

挖坑法
先将第一个变量存放到临时变量key中，形成一个坑位
让 right 向左移动，找到比 key 小的元素，让该元素填补到那个坑位，自己形成一个坑位
再让 left 向右移动，找到比 key 大的元素，让该元素填补到那个坑位，自己形成一个坑位
重复 2-3 操作，直到 left == right ，将 key 中的值放入坑位即可
同样进入左区间和右区间重复上述操作，区间不存在或只有一个值则直接返回

这个版本就不提供代码，交给大家自己试着实现。

前后指针版本
选择最左边为基准值key，初始时，prev指针指向序列开头，cur指针指向prev指针后一个位置
向让cur走，遇到比key大则直接接着走
当cur遇到比key小时，先让prev++，然后判断如果 prev != cur，则交换prev和cur的元素
当cur超过区间范围，让key与prev元素交换
同样进入左区间和右区间重复上述操作，区间不存在或只有一个值则直接返回

代码：

cpp 复制代码

void QuickSort2(int* a, int left, int right)
{
	if (left >= right)
		return;

	int keyi = left;
	int prev = left;
	int cur = left + 1;

	while (cur <= right)
	{
		if (a[cur] < a[keyi] && ++prev != cur)
			Swap(&a[prev], &a[cur]);

		++cur;
	}

	Swap(&a[keyi], &a[prev]);
	keyi = prev;

	// [left, keyi-1]keyi[keyi+1, right]
	QuickSort2(a, left, keyi - 1);
	QuickSort2(a, keyi + 1, right);
}

2.3.3.2 快速排序的优化

三数取中法选key
递归到小的子区间时，可以考虑使用插入排序

综合代码：

cpp 复制代码

// 三数取中  left  mid  right
// 大小居中的值，也就是不是最大也不是最小的
int GetMidi(int* a, int left, int right)
{
	int mid = (left + right) / 2;
	//printf("%d %d %d", left, mid, right);
	//printf("->%d %d %d\n", a[left], a[mid], a[right]);

	if (a[left] < a[mid])
	{
		if (a[mid] < a[right])
		{
			return mid;
		}
		else if (a[left] > a[right])
		{
			return left;
		}
		else
		{
			return right;
		}
	}
	else // a[left] > a[mid]
	{
		if (a[mid] > a[right])
		{
			return mid;
		}
		else if (a[left] < a[right])
		{
			return left;
		}
		else
		{
			return right;
		}
	}
}

void QuickSort1(int* a, int left, int right)
{
	// 区间只有一个值或者不存在就是最小子问题
	if (left >= right)
		return;

	// 小区间选择走插入，可以减少90%左右的递归
	if (right - left + 1 < 10)
	{
		InsertSort(a + left, right - left + 1);
	}
	else
	{
		int begin = left, end = right;

		// 100 200，注意的是left不一定是0
		// 选[left, right]区间中的随机数做key
		//int randi = rand() % (right - left + 1);
		//randi += left;
		//Swap(&a[left], &a[randi]);

		// 三数取中
		int midi = GetMidi(a, left, right);
		//printf("%d\n", midi);
		Swap(&a[left], &a[midi]);

		//PrintArray(a+left, right-left+1);

		int keyi = left;
		while (left < right)
		{
			// right先走，找小
			while (left < right && a[right] >= a[keyi])
			{
				--right;
			}

			// left再走，找大
			while (left < right && a[left] <= a[keyi])
			{
				++left;
			}

			Swap(&a[left], &a[right]);
		}

		Swap(&a[left], &a[keyi]);
		keyi = left;

		// [begin, keyi-1]keyi[keyi+1, end]
		QuickSort1(a, begin, keyi - 1);
		QuickSort1(a, keyi + 1, end);
	}
}

2.3.3.3 快速排序非递归

非递归的难点主要是如何不递归却能走出和递归一样的效果，这里使用了栈的后进先出特性实现。

在递归法中，我们先是一直往左走，走到头后回到上一级去到右面，一直往上返回并去到右边，这里我们使用栈，先插入右区间的范围，再插入左区间范围，这样就能先获取左区间范围，在新的区间中依然先插入右区间，再插入左区间，以此类推。这样我们就能跟递归一样先一直走左，后走右

快速排序非递归的实现：

cpp 复制代码

#include"Stack.h"
void _QuickSort1(int* a, int left, int right)
{
	ST st;
	STInit(&st);
	STPush(&st, right);
	STPush(&st, left);

	while (!STEmpty(&st))
	{
		int begin = STTop(&st);
		STPop(&st);
		int end = STTop(&st);
		STPop(&st);

		int prev = begin;
		int cur = begin + 1;
		int keyi = begin;
		while (cur <= end)
		{
			if (a[cur] < a[keyi])
			{
				prev++;
				Swap(&a[prev], &a[cur]);
			}
			cur++;
		}
		Swap(&a[keyi], &a[prev]);
		keyi = prev;

		// 先插入右区间，后获取右区间
		if (keyi + 1 < end)
		{
			STPush(&st, end);
			STPush(&st, keyi + 1);
		}
		// 后插入左区间，先获取左区间
		if (begin < keyi - 1)
		{
			STPush(&st, keyi - 1);
			STPush(&st, begin);
		}
	}


	STDestory(&st);
}

2.3.3.4 快速排序特性总结

快速排序的整体的综合性能和使用场景都是比较好的，所以能够称为快速排序
时间复杂度：O(N * logN)
空间复杂度：O(logN)
稳定性：不稳定

2.4 归并排序

归并排序是一种建立在归并操作上的一种有效的排序算法，该算法是采用分治法的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。若将两个有序表合并为一个有序表，称为二路归并。归并排序核心步骤：

归并排序的实现：

cpp 复制代码

void _MergeSort(int* a, int begin, int end, int* tmp)
{
	if (begin == end)
		return;

	// 分解：找到中间点，将该段集合分为两部分
	int mid = (begin + end) / 2;
	// [begin, mid] [mid+1, end]
	_MergeSort(a, begin, mid, tmp);
	_MergeSort(a, mid + 1, end, tmp);

	// 归并
	int begin1 = begin, end1 = mid;
	int begin2 = mid + 1, end2 = end;
	int i = begin;
	// 依次比较，取小的尾插tmp数组
	while (begin1 <= end1 && begin2 <= end2)
	{
		if (a[begin1] <= a[begin2])
		{
			tmp[i++] = a[begin1++];
		}
		else
		{
			tmp[i++] = a[begin2++];
		}
	}

	while (begin1 <= end1)
	{
		tmp[i++] = a[begin1++];
	}

	while (begin2 <= end2)
	{
		tmp[i++] = a[begin2++];
	}

	memcpy(a + begin, tmp + begin, sizeof(int) * (end - begin + 1));
}

归并排序的特性总结：

归并的缺点在于需要O(N)的空间复杂度，归并排序的思想更多是解决在磁盘中的外排序问题
时间复杂度：O(N*logN)
空间复杂度：O(N)
稳定性：稳定

2.5 非比较排序

思想：计数排序又称为鸽巢原理，是对哈希直接定址法的变形应用。操作步骤：

统计相同元素出现次数
根据统计的结果将序列回收到原来的序列中

计数排序的实现：

cpp 复制代码

void CountSort(int* a, int n)
{
	int min = a[0], max = a[0];
	for (int i = 1; i < n; i++)
	{
		if (a[i] > max)
			max = a[i];

		if (a[i] < min)
			min = a[i];
	}

	int range = max - min + 1;
	int* count = (int*)malloc(sizeof(int) * range);
	if (count == NULL)
	{
		perror("malloc fail");
		return;
	}

	memset(count, 0, sizeof(int) * range);

	// 统计次数
	for (int i = 0; i < n; i++)
	{
		count[a[i] - min]++;
	}

	// 排序
	int j = 0;
	for (int i = 0; i < range; i++)
	{
		while (count[i]--)
		{
			a[j++] = i + min;
		}
	}
}

计数排序的特性总结：

计数排序在数据范围集中时，效率很高，但是适用范围和场景有限
时间复杂度：O(MAX(N，范围))
空间复杂度：O(范围)
稳定性：稳定

三、排序算法复杂度及稳定性分析

总结

本文我们了解了常见的排序算法：直接插入排序，希尔排序，直接选择排序，堆排序，冒泡排序，快速排序，归并排序，计数排序。我们知道了它们每个的特性并用代码实现它们。相信大家日后能在在合适的时候使用合适的排序算法。