python爬虫之异步爬虫之线程池的基本使用

python爬虫之异步爬虫之线程池的基本使用

高性能异步爬虫

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

1、多线程,多进程(不建议):

好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。

弊端:无法无限制的开启多线程或者多进程。

2、线程池、进程池(适当的使用):

好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。

弊端:池中进程或线程的数量是有上限的。

使用单线程串行方式执行代码和运行结果如下:

复制代码
import time
#使用单线程串行方式执行

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

start_time = time.time()

for i in range(len(name_list)):
    get_page(name_list[i])

end_time = time.time()
print('%d second'%(end_time-start_time))

导入线程池模块执行代码和运行结果如下:

复制代码
import time
#导入线程池模块对应的类
from multiprocessing.dummy import Pool
#使用线程池方式执行
start_time = time.time()

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

#实例化一个线程池对象
pool = Pool(4)
#将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page,name_list)

end_time = time.time()
print(end_time-start_time)
相关推荐
Charles_go1 分钟前
C#中级8、什么是缓存
开发语言·缓存·c#
koo3643 分钟前
pytorch环境配置
人工智能·pytorch·python
松涛和鸣1 小时前
14、C 语言进阶:函数指针、typedef、二级指针、const 指针
c语言·开发语言·算法·排序算法·学习方法
m***66732 小时前
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程
爬虫·scrapy
程序员杰哥3 小时前
Python自动化测试之线上流量回放:录制、打标、压测与平台选择
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·压力测试
吴佳浩3 小时前
LangChain v1 重大更新讲解⚠⚠⚠
python·langchain·agent
智商低情商凑5 小时前
Go学习之 - Goroutines和channels
开发语言·学习·golang
半桶水专家5 小时前
Go 语言时间处理(time 包)详解
开发语言·后端·golang
编程点滴5 小时前
Go 重试机制终极指南:基于 go-retry 打造可靠容错系统
开发语言·后端·golang
顾安r5 小时前
11.20 开源APP
服务器·前端·javascript·python·css3