数据结构第五章（树和二叉树）【下】

写在前面：

本系列笔记主要以《数据结构（C语言版）》为参考（本章部分图片以及知识点整理来源于王道），结合下方视频教程对数据结构的相关知识点进行梳理。所有代码块使用的都是C语言，如有错误欢迎指出。
视频链接：第01周a--前言_哔哩哔哩_bilibili
哈夫曼树部分的代码参考了一位小伙伴分享的代码，特此说明一下，其它C代码均由笔者根据书上的类C代码进行编写。

五、树和森林

1、树的存储结构

（1）双亲表示法：以一组连续的存储单元存储树的结点，每个结点除了数据域data外，还附设一个parent域用以指示其双亲结点的位置。

cpp 复制代码

#define MAXSIZE 100     //数的最大结点数

typedef char TElemType;  //以字符型为例

typedef struct PTNode
{
	TElemType data; //数据元素
	int parent;     //双亲位置域
}PTNode;     //树的结点定义
typedef struct
{
	PTNode node[MAXSIZE];  //结点数组
	int r, n;   //根结点的位置和结点个数
}PTree;      //树的类型定义

enum Status
{
	OVERFLOW,
	ERROR,
	OK
};

①在这种存储结构下，求结点的双亲十分方便，求树的根也很容易，但求结点的孩子时需要遍历整个结构。

②新增数据元素，无需按逻辑上的次序存储，删除叶子结点上的数据元素同理，但如果删除的不是叶子结点，那就需要把以该结点为根的子树中的全部结点删除。

（2）孩子表示法：由于树中每个结点可能有多棵子树，则可把每个结点的孩子结点排列起来，看成一个线性表，且以单链表作为存储结构，则n个结点有n个孩子链表（叶子的孩子链表为空表），而n个头指针又组成一个线性表，为了便于查找，可采用顺序存储结构。

cpp 复制代码

#define MAXSIZE 100     //数的最大结点数

typedef char TElemType;  //以字符型为例

typedef struct CTNode
{
	int child;   //孩子结点在数组中的位置
	struct CTNode *next;   //下一个孩子
};
typedef struct
{
	TElemType data;
	struct CTNode *firstChild;  //第一个孩子
}CTBox;
typedef struct
{
	CTBox nodes[MAXSIZE];
	int n, r;    //结点数和根的位置
}CTree;

enum Status
{
	OVERFLOW,
	ERROR,
	OK
};

（3）孩子兄弟表示法：又称二叉树表示法，或二叉链表表示法，即以二叉链表作为树的存储结构，链表中结点的两个链域分别指向该结点的第一个孩子结点和下一个兄弟结点（树转换为二叉树），分别命名为firstchild域和nextsibling域。

cpp 复制代码

typedef char TElemType;  //以字符型为例

typedef struct CSNode
{
	TElemType data;
	struct CSNode *firstchild, *nextsibling;
}CSNode,*CSTree;

enum Status
{
	OVERFLOW,
	ERROR,
	OK
};

2、森林与二叉树的转换

（1）树转换为二叉树：

①加线：在兄弟结点之间加一连线。

②抹线：对每个结点，除了其左孩子外，去除其与其余孩子之间的关系。

③旋转：以树的根结点为轴心，将整树顺时针转45°。

（2）二叉树转换为树：

①加线：若p结点是双亲结点的左孩子，则将p的右孩子、右孩子的右孩子......沿分支找到的所有右孩子，都与p的双亲用线连起来。

②抹线：抹掉原二叉树中双亲与右孩子之间的连线。

③调整：将结点按层次排列，形成树结构。

（3）森林转换为二叉树：

①将各棵树分别转换成二叉树。

②将每棵树的根结点用线相连。（各棵树的根结点视为兄弟关系）

③以第一棵树根结点为二叉树的根，再以根结点为轴心，顺时针旋转构成二叉树型结构。

（4）二叉树转换成森林：

①抹线：将二叉树中根结点与其右孩子连线，及沿右分支搜索到的所有右孩子间连线全部抹掉，使之变成孤立的二叉树。

②还原：将孤立的二叉树还原成树。

3、树和森林的遍历

（1）树的遍历：

①先根（次序）遍历，即先访问树的根结点，然后依次先根遍历根的每棵子树。（树的先根遍历序列与这棵树相应二叉树的先序序列相同）

②后根（次序）遍历，即先依次后根遍历根的每棵子树，然后访问树的根结点。（树的后根遍历序列与这棵树相应二叉树的中序序列相同）

③层次遍历，即按层次遍历树的每个结点，如下图所示。

（2）森林的遍历：

①先序遍历森林（效果等同于依次对各个树进行先根遍历）：

若森林为非空，则按如下规则进行遍历：

$1$ 访问森林中第一棵树的根结点。

$2$ 先序遍历第一棵树中根结点的子树森林。

$3$ 先序遍历除去第一棵树之后剩余的树构成的森林。

②中序遍历森林（效果等同于依次对各个树进行后根遍历）：

若森林为非空，则按如下规则进行遍历：

$1$ 中序遍历森林中第一棵树的根结点的子树森林。

$2$ 访问第一棵树的根结点。

$3$ 中序遍历除去第一棵树之后剩余的树构成的森林。

六、哈夫曼树及其应用

1、哈夫曼树的基本概念

（1）哈夫曼树又称最优树，是一类带权路径长度最短的树。

（2）哈夫曼树相关术语：

①路径：从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。

②路径长度：路径上的分支数目称作路径长度。

③树的路径长度：从树根到每一叶子结点的路径长度之和。

④权：赋予某个实体的一个量，是对实体的某个或某些属性的数值化描述。

⑤结点的带权路径长度：从该结点到树根之间的路径长度与结点上权值的乘积。

⑥树的带权路径长度（WPL）：树中所有叶子结点的带权路径长度之和。

⑦哈夫曼树：带权路径长度WPL最小的二叉树称作最优二叉树或哈夫曼树。（"带权路径最短"是在"度相同"的树中比较而得的，因此有最优二叉树、最优多叉树之分，但只有最优二叉树是哈夫曼树）

（3）几个结论：

①结点数目相同的二叉树中，完全二叉树是路径长度最短的二叉树。

②满二叉树不一定是哈夫曼树。

③哈夫曼树中权越大的叶子结点离根结点越近。

④具有相同带权结点的哈夫曼树不唯一。

2、哈夫曼树的构造算法

（1）给定n个权值分别为、、...、的结点，构造哈夫曼树的算法描述如下：

①将这n个结点分别作为n棵仅含一个结点的二叉树，构成森林F。

②构造一个新结点，从F中选取两棵根结点权值最小的树作为新结点的左、右子树，并且将新结点的权值置为左、右子树上根结点的权值之和。

③从F中删除刚才选出的两棵树，同时将新得到的树加入F中。

④重复步骤2和3，直至F中只剩下一棵树为止。

（2）构造算法生成的哈夫曼树具有如下特点：

①每个初始结点最终都成为叶子结点，且权值越小的结点到根结点的路径长度越大。

②哈夫曼树的结点总数为2n − 1。

③哈夫曼树中不存在度为1的结点。

④哈夫曼树并不唯一，但WPL必然相同且为最优。

（3）哈夫曼树算法的实现：

①哈夫曼树的存储表示：

cpp 复制代码

typedef struct
{
	int weight;    //结点的权值
	int parent, lchild, rchild;  //结点的双亲、左孩子、右孩子的下标
} HTNode, *HTree;

②选取根结点权值最小的两棵树：

cpp 复制代码

void Select_Min(const HTree T, int length, int *e1, int *e2) 
{
	int min1, min2;
	min1 = min2 = INT_MAX;
	int pos1, pos2;
	pos1 = pos2 = 0;
	for (int i = 1; i < length + 1; ++i) 
	{
		if (T[i].parent == 0) 
		{
			if (T[i].weight < min1) 
			{
				min2 = min1;
				pos2 = pos1;
				min1 = T[i].weight;
				pos1 = i;
			}
			else if (T[i].weight < min2) 
			{
				min2 = T[i].weight;
				pos2 = i;
			}
		}
	}
	*e1 = pos1;
	*e2 = pos2;
}

③算法核心部分：

cpp 复制代码

void Creat_Huffman(HTree *T, int n) 
{
	if (n <= 1)
		return;
	int m = 2 * n - 1;
	*T = (HTree)malloc(sizeof(HTNode) * (m + 1)); //0号位置不使用，T[m]表示根结点
	for (int i = 1; i < m + 1; ++i)   //将1~m号单元中的双亲、左孩子、右孩子的下标都初始化为0
	{
		(*T)[i].lchild = (*T)[i].rchild = 0;
		(*T)[i].parent = 0;
	}
	for (int i = 1; i < n + 1; ++i)   //输入前n个单元中叶子结点的权值
	{
		scanf(" %d", &(*T)[i].weight);
	}
	/*------------初始化完毕，开始构造哈夫曼树-----------*/
	int min1, min2; //表示第一小和第二小的位置
	for (int i = n + 1; i < m + 1; ++i)   //通过n-1次的选择、删除、合并来创建哈夫曼树
	{
		Select_Min(*T, i - 1, &min1, &min2); //在T[k]中选择两个其双亲域为0且权值最小的结点，返回它们在T中的序号
		(*T)[min1].parent = (*T)[min2].parent = i; //从森林中删除两个结点，将它们的双亲域改为新结点i
		(*T)[i].lchild = min1; //新结点的左孩子
		(*T)[i].rchild = min2; //新结点的右孩子
		(*T)[i].weight = (*T)[min1].weight + (*T)[min2].weight; //结点的权值为左右孩子权值之和
	}
}

3、哈夫曼编码

（1）固定长度编码与可变长度编码：

①固定长度编码------每个字符用相等长度的二进制位表示。

②可变长度编码------允许对不同字符用不等长的二进制位表示。

（2）关于编码的两个概念：

①若没有一个编码是另一个编码的前缀，则称这样的编码为前缀编码。

②对一棵具有n个叶子的哈夫曼树，若对树中的每个左分支赋予0，对每个右分支赋予1，则从根到每个叶子的路径上，各分支的赋值分别构成一个二进制串，该二进制串就称为哈夫曼编码。

（3）哈夫曼编码的两个性质：

①哈夫曼编码是前缀编码。没有一片树叶是另一片树叶的祖先，所以每个叶结点的编码就不可能是其它叶结点编码的前缀。

②哈夫曼编码是最优前缀编码。因为哈夫曼树的带权路径长度最短，所以字符编码的总长最短。

（4）构造哈夫曼编码对应的哈夫曼树的方法------字符集中的每个字符作为一个叶子结点，各个字符出现的频度作为结点的权值，根据之前介绍的方法构造哈夫曼树。

（5）由哈夫曼树得到哈夫曼编码的算法的具体实现：

cpp 复制代码

typedef char **HuffmanCode;    //动态分配数组存储哈夫曼编码表
HuffmanCode Creat_HuffmanCode(const HTree HT, int n) 
{
	HuffmanCode HC = (char **)malloc(sizeof(char *) * (n + 1));  //分配存储n个字符编码的编码表空间
	char *temp_string = (char *)malloc(sizeof(char) * n);        //分配临时存放每个字符编码的动态数组空间
	temp_string[n - 1] = '\0';     //因为存放字符串所以最后一个位置 '\0'
	for (int i = 1; i < n + 1; ++i)   //逐个字符求哈夫曼编码
	{
		int parent = HT[i].parent; //指向双亲结点，整个算法是从叶子到根逆向求每个字符的哈夫曼编码
		int current = i; //回溯中当前结点
		int start = n - 1; //start指向数组中最后一个位置，即'\0'
		while (parent)     //从叶子结点向上回溯，直到根结点
		{
			if (current == HT[parent].lchild)
				temp_string[--start] = '0';   //如果是左孩子，那么为'0'
			else
				temp_string[--start] = '1';   //如果是左孩子，那么为'1'
			current = parent;                 //当前结点指向双亲结点
			parent = HT[parent].parent;       //继续向上回溯
		}
		HC[i] = (char *)malloc(sizeof(char) * (n - start)); //求出第i个字符的编码，根据它的长度为其分配空间
		strcpy(HC[i], &temp_string[start]); //拷贝字符串
	}
	free(temp_string); //释放临时空间
	return HC;
}

void T7(BiTree T, TElemType data[MAXSIZE], int len)
{
	//在其它函数中调用该函数时，形参len应该为0
	if (T)
	{
		if (T->lchild == NULL && T->rchild == NULL)
		{
			printf("%c", T->data);
			for (int i = len - 1; i >= 0; i--)
				printf("--%c", data[i]);
			printf("\n");
		}
		else
		{
			data[len++] = T->data;
			T7(T->lchild, data, len);
			T7(T->rchild, data, len);
		}
	}
}

数据结构 第五章（树和二叉树）【下】

五、树和森林

1、树的存储结构

2、森林与二叉树的转换

3、树和森林的遍历

六、哈夫曼树及其应用

1、哈夫曼树的基本概念

2、哈夫曼树的构造算法

3、哈夫曼编码

七、算法设计举例

1、例1

2、例2

3、例3

4、例4

5、例5

6、例6

7、例7

数据结构第五章（树和二叉树）【下】