数据处理大杀器:Python Collections 模块全攻略

更多学习内容:ipengtao.com

Python 的 collections 模块提供了丰富的数据结构和工具,可以更高效地处理各种数据。这个模块中包含了众多数据结构,如命名元组、计数器、默认字典等,以及一些高级数据处理工具。本文将深入探讨 collections 模块,展示如何使用它来解放数据处理能力。

命名元组(Named Tuples)

命名元组是具名的元组,可以创建更具可读性的数据结构。可以为元组的字段分配名称,这样可以更清晰地访问和操作元组的数据。

python 复制代码
from collections import namedtuple

# 创建命名元组类
Person = namedtuple('Person', ['name', 'age', 'country'])

# 创建命名元组对象
person1 = Person('Alice', 30, 'USA')
person2 = Person('Bob', 25, 'Canada')

# 访问命名元组字段
print(person1.name)  # 输出:'Alice'
print(person2.country)  # 输出:'Canada'

计数器(Counter)

Counter 是一个强大的工具,用于计算可迭代对象中元素的频率。可以用它轻松统计列表、字符串或任何可迭代对象中元素的出现次数。

python 复制代码
from collections import Counter

# 创建一个计数器对象
data = [1, 2, 3, 1, 2, 3, 1, 2, 1, 1]
counter = Counter(data)

# 统计元素出现的次数
print(counter[1])  # 输出:4
print(counter[2])  # 输出:3

默认字典(DefaultDict)

defaultdict 是字典的一个变种,它允许为字典的键设置默认值。当访问不存在的键时,defaultdict 会返回默认值而不是引发 KeyError 异常。

python 复制代码
from collections import defaultdict

# 创建一个默认字典,所有键的默认值为0
data = defaultdict(int)
data['a'] = 1
data['b'] = 2

# 访问不存在的键,返回默认值0
value = data['c']
print(value)  # 输出:0

双端队列(Deque)

双端队列(deque)是一个高效的数据结构,支持从两端添加和弹出元素。它比列表在频繁插入和删除元素时性能更好。

python 复制代码
from collections import deque

# 创建双端队列
queue = deque([1, 2, 3])

# 从左边添加元素
queue.appendleft(0)

# 从右边弹出元素
value = queue.pop()

print(queue)  # 输出:deque([0, 1, 2])
print(value)  # 输出:3

链表(ChainMap)

ChainMap 可以将多个字典合并成一个逻辑上的字典。这使得可以在多个字典上执行操作,而不需要复制数据。

python 复制代码
from collections import ChainMap

dict1 = {'a': 1, 'b': 2}
dict2 = {'b': 3, 'c': 4}

# 创建 ChainMap
chain = ChainMap(dict1, dict2)

# 访问合并后的字典
print(chain['a'])  # 输出:1
print(chain['b'])  # 输出:2
print(chain['c'])  # 输出:4

堆队列(Heap Queue)

heapq 模块实现了堆队列算法,它是一种优先队列的变种。堆队列允许快速获取最小(或最大)元素,适用于许多排序和调度问题。

python 复制代码
import heapq

# 创建一个堆
heap = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]

# 将列表转换为最小堆
heapq.heapify(heap)

# 弹出最小元素
min_element = heapq.heappop(heap)
print(min_element)  # 输出:1

用户自定义键排序

collections 模块中的 sorted 函数可以根据元组中的某个键来排序列表。

python 复制代码
from collections import namedtuple

# 创建命名元

组类
Person = namedtuple('Person', ['name', 'age'])

# 创建对象列表
people = [Person('Alice', 25), Person('Bob', 30), Person('Charlie', 20)]

# 根据年龄排序
sorted_people = sorted(people, key=lambda x: x.age)
print(sorted_people)

总结

collections 模块为Python开发者提供了许多强大的数据结构和工具,可以大大简化数据处理过程。本文涵盖了其中一些重要的工具,如命名元组、计数器、默认字典、双端队列、链表、堆队列以及自定义键排序。这些工具为数据处理和算法解决方案提供了极大的便利,帮助提高代码的可读性和性能。通过熟练运用 collections 模块,可以更加高效地处理各种数据,并且提升编程技能。


Python学习路线

更多学习内容:ipengtao.com

相关推荐
子榆.7 分钟前
CANN ATC编译器:模型从Python到达芬奇指令走了多远
开发语言·python·neo4j
zzqssliu7 分钟前
SpringBoot框架搭建跨境独立站|Taocarts代购系统订单模块深度开发
java·spring boot·后端
lookaroundd8 分钟前
llm-compressor 普通量化调用链分析
python·算法
Loo国昌11 分钟前
从 Agent 编排到 Skill Runtime:企业 AI 工程化的下一层抽象
大数据·人工智能·后端·python·自然语言处理
小羊在睡觉22 分钟前
力扣239. 滑动窗口最大值
数据结构·后端·算法·leetcode·go
编码者卢布23 分钟前
【Azure Service Bus】Azure Service Bus Java SDK 中 Token 刷新异常的排查思路
java·python·azure
liuyunshengsir27 分钟前
PyTorch 最小模型转 ONNX 完整样例
人工智能·pytorch·python
我星期八休息41 分钟前
Linux系统编程—库制作与原理
linux·运维·服务器·数据结构·人工智能·python·散列表
RainCityLucky44 分钟前
Java Swing 自定义组件库分享(七)
java·笔记·后端
_Evan_Yao1 小时前
如何搭建属于自己的技术博客(CSDN / GitHub Pages)
后端·学习·github