哈夫曼树Python实现

哈夫曼树构建原则:

  1. .统计频率:对待编码字符(或数据块)的频率进行统计。
  2. .初始化森林:将每个字符视为一棵只有根节点的二叉树,权值为频率。
  3. .合并树 :重复以下操作,直到只剩一棵树:
    • 选取权值最小的两棵树合并,新树的根节点权值为两者之和。
    • 权值较小的树作为左子树,较大的为右子树(约定方向不影响结果)。
  4. 生成编码 :从根节点出发,向左子树路径标记0,向右标记1,到叶子节点的路径即为该字符的哈夫曼编码。

引用python模块说明:

heapq.heapifyheapq 模块(堆队列算法)的核心函数,用于将普通列表原地转换为最小堆数据结构

python 复制代码
import heapq

# 原始未排序列表
data = [3, 1, 4, 1, 5, 9, 2, 6]
print("转换前:", data)  # [3, 1, 4, 1, 5, 9, 2, 6]

# 原地转换为最小堆
heapq.heapify(data)

print("转换后:", data)  # 输出可能: [1, 1, 2, 3, 5, 9, 4, 6]
print("最小元素:", data[0])  # 1 (始终是堆顶)

图示化:

1 ← 堆顶 (最小元素)

/ \

1 2

/ \ / \

3 5 9 4

/

6

python 复制代码
import heapq

class Node:
    def __init__(self, char=None, freq=0, left=None, right=None):
        self.char = char    # 字符(仅叶子节点有)
        self.freq = freq    # 频率
        self.left = left    # 左子节点
        self.right = right  # 右子节点

    # 用于优先队列比较
    def __lt__(self, other):
        return self.freq < other.freq

def build_huffman_tree(freq_dict):
    heap = [Node(char=char, freq=freq) for char, freq in freq_dict.items()]
    heapq.heapify(heap)  # 转为最小堆
	

    while len(heap) > 1:
        left = heapq.heappop(heap)  # 弹出最小频率节点
        right = heapq.heappop(heap) # 弹出次小频率节点
        merged = Node(freq=left.freq + right.freq, left=left, right=right)
        heapq.heappush(heap, merged)  # 合并后的树放回堆中,继续转为最小堆

    return heap[0]  # 返回哈夫曼树的根节点

def generate_codes(root, current_code="", code_dict={}):
    if root is None:
        return
    if root.char is not None:  # 叶子节点,则加入字典
        code_dict[root.char] = current_code
    generate_codes(root.left, current_code + "0", code_dict)  #递归调用
    generate_codes(root.right, current_code + "1", code_dict) #递归调用
    return code_dict

# 示例:压缩字符串 "aabbbcd"
freq = {'a': 2, 'b': 3, 'c': 1, 'd': 1}
huffman_tree = build_huffman_tree(freq)
codes = generate_codes(huffman_tree)
print("哈夫曼编码:", codes)  # 输出如 {'b': '0', 'a': '10', 'c': '110', 'd': '111'}
相关推荐
春日见3 分钟前
5分钟入门强化学习之动态规划算法与实现
大数据·人工智能·python·算法·机器学习·计算机视觉
bug和崩溃我都要8 分钟前
Qt 封装 libmpv 全功能视频播放器开发指南
开发语言·qt·音视频
郝学胜-神的一滴13 分钟前
Qt 高级开发 018:复刻经典登录界面布局与窗口美化全解析
开发语言·c++·qt·程序人生·用户界面
郝亚军20 分钟前
IEEE 754 单精度浮点的SEM表示
开发语言·c++·算法
zhangjw3426 分钟前
第15篇:Java多线程零基础入门,进程线程、线程创建方式、线程生命周期、线程安全彻底吃透
java·开发语言·面试
蝈理塘(/_\)大怨种28 分钟前
类和对象 (上)
java·开发语言
DeniuHe34 分钟前
sklearn 中所有交叉验证数据集划分方式完整总结
人工智能·python·sklearn
DeniuHe38 分钟前
sklearn中不同交叉验证方法的场景适配
人工智能·python·sklearn
小新1101 小时前
qt creator 将qInfo的输出日志写入日志文档,方便查看
开发语言·qt
隐于花海,等待花开1 小时前
16.Python 常用第三方库概览 深度解析
python