python爬虫之异步爬虫之线程池的基本使用

python爬虫之异步爬虫之线程池的基本使用

高性能异步爬虫

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

1、多线程,多进程(不建议):

好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。

弊端:无法无限制的开启多线程或者多进程。

2、线程池、进程池(适当的使用):

好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。

弊端:池中进程或线程的数量是有上限的。

使用单线程串行方式执行代码和运行结果如下:

复制代码
import time
#使用单线程串行方式执行

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

start_time = time.time()

for i in range(len(name_list)):
    get_page(name_list[i])

end_time = time.time()
print('%d second'%(end_time-start_time))

导入线程池模块执行代码和运行结果如下:

复制代码
import time
#导入线程池模块对应的类
from multiprocessing.dummy import Pool
#使用线程池方式执行
start_time = time.time()

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

#实例化一个线程池对象
pool = Pool(4)
#将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page,name_list)

end_time = time.time()
print(end_time-start_time)
相关推荐
不瘦80斤不改名12 小时前
HTML基础(一)
开发语言·前端·html
Shadow(⊙o⊙)12 小时前
初识Qt+经典方式实现hello world!的交互
开发语言·c++·后端·qt·学习
Byte Wizard12 小时前
C语言指针深入浅出3
c语言·开发语言
88号技师12 小时前
2026年4月一区SCI-狒狒优化算法Baboon optimization algorithm-附Matlab免费代码
开发语言·算法·数学建模·matlab·优化算法
S1998_1997111609•X13 小时前
哈希树函数洪水泛滥污染孪生镜像导致生物量子信息泄露以钩子而爬虫植入ssd探测
爬虫·网络协议·缓存·哈希算法·开闭原则
E_ICEBLUE13 小时前
如何提取 Word 文档中的表格并导出为 Excel(Python 教程)
python·word·excel
极光代码工作室13 小时前
基于NLP的智能问答系统设计
python·深度学习·自然语言处理·nlp
平凡但不平庸的码农13 小时前
Go context 包详解
开发语言·后端·golang
隐士Xbox13 小时前
c++ 指针的用法
开发语言·c++·计算机视觉
lbb 小魔仙13 小时前
Python 多模态 AI 应用开发实战:用 GPT-4o + LangChain 构建智能视觉助手
人工智能·python·langchain