python爬虫之异步爬虫之线程池的基本使用

python爬虫之异步爬虫之线程池的基本使用

高性能异步爬虫

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

1、多线程,多进程(不建议):

好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。

弊端:无法无限制的开启多线程或者多进程。

2、线程池、进程池(适当的使用):

好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。

弊端:池中进程或线程的数量是有上限的。

使用单线程串行方式执行代码和运行结果如下:

复制代码
import time
#使用单线程串行方式执行

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

start_time = time.time()

for i in range(len(name_list)):
    get_page(name_list[i])

end_time = time.time()
print('%d second'%(end_time-start_time))

导入线程池模块执行代码和运行结果如下:

复制代码
import time
#导入线程池模块对应的类
from multiprocessing.dummy import Pool
#使用线程池方式执行
start_time = time.time()

def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print("下载成功:",str)

name_list = ['xiaozi','aa','bb','cc']

#实例化一个线程池对象
pool = Pool(4)
#将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page,name_list)

end_time = time.time()
print(end_time-start_time)
相关推荐
大飞记Python7 分钟前
当GitHub不再纯粹:Python自动化测试的未来是AI还是危机?
python·github
eqwaak019 分钟前
Matplotlib 动画显示进阶:交互式控制、3D 动画与未来趋势
python·tcp/ip·3d·语言模型·matplotlib
GilgameshJSS25 分钟前
【学习K230-例程23】GT6700-音频FFT柱状图
python·学习·音视频
郝学胜-神的一滴39 分钟前
深入探索 C++ 元组:从基础到高级应用
开发语言·c++·stl·软件工程
I'm a winner39 分钟前
第七章:AI进阶之------输入与输出函数(一)
开发语言·人工智能·python·深度学习·神经网络·microsoft·机器学习
木心操作1 小时前
js生成excel表格进阶版
开发语言·javascript·ecmascript
听情歌落俗1 小时前
MATLAB3-1变量-台大郭彦甫
开发语言·笔记·算法·matlab·矩阵
用户051610461671 小时前
爬虫 API 技术全解析:从原理到实战的高效数据采集指南
爬虫·api
ERP老兵_冷溪虎山1 小时前
Python/JS/Go/Java同步学习(第十三篇)四语言“字符串转码解码“对照表: 财务“小南“纸式转码术处理凭证乱码崩溃(附源码/截图/参数表/避坑指南)
java·后端·python
zhangfeng11332 小时前
在 R 语言里,`$` 只有一个作用 按名字提取“列表型”对象里的单个元素 对象 $ 名字
开发语言·windows·r语言