多协程爬虫

Python爬虫还可以使用协程,协程是一种轻量级线程,使用协程有众多的好处:

  1. 协程像一种在程序级别模拟系统的进程,由于是单线程,并且少了上下文切换,因此相对来说系统消耗很少,而且网上的各种测试也表明了协程拥有惊人的速度。
  2. 协程的方便切换控制流,这样就简化了编程的流程,它还可以保留上一次的调用的状态,每次过程重入时,就相当于进入了上一次的状态。
  3. 协程的高扩展性和高并发性,一个CPU支持上万个协程都不是问题,因此很适合高并发性。

当然协程也有缺点:

1.协程的本质是一个单线程,不可以同时使用单个CPU的多核,需要进程才可以配合多个CPU上。

2.有长时间阻塞的IO操作时,不要协程,因为可能阻塞整个程序。

我们开始的时候要使用pip安装:

pip install gevent

我们现在就可以使用gevent进行爬虫:

python 复制代码
import gevent
from gevent,queue import Queue, Emptyimport
import time
import requests

from gevent import monkey#把下面有可能有 IO 操作的单独做上标记
monkey.patch_all()#将I0转为异步执行的函数
link_list =[]
with open('alexa.txt','r')as file:
    file_list = file.readlines()
    for eachone in file_list:
        link = eachone.split('\t')[1]
        link = link.replace('\n','')
        link_list.append(link)
    start = time.time()
    def crawler(index):
        Process_id = 'Process_+ str(index)'
        while not workQueue.empty():
            url = workQueue.get(timeout=2)
        try:
            r = requests.get(url, timeout=20)
            print(Process_id, workQueue.qsize(), r.status_code, url)
        except Exception as e:
            print(Process_id, workQueue.qsize(), url, 'Error:',e)
    
    def boss():
            for url in link_list:
                workQueue.put_nowait(url)

if __name__ == '__main__':
    workQueue = Queue(1000)
    gevent.spawn(boss).join()
    jobs = []
    for i in range(10):
        jobs.append(gevent.spawn(crawler, i))
    gevent.joinall(jobs)
    end = time.time()
    print('gevent + Queue 多协程爬虫的总时间为:',end - start)
    print(' Ended!')

上面的代码,我们首先使用了:

form gevent import monkey

monkey.patch_all

这样可以实现爬虫的并发能力,如果没有这两句,整个获取就会变为依次抓取。gevent库中的monkey能把IO操作的单独做上标记,将IO变成异步执行的函数。

我们还是可以用Queue创建队列,但在这里使用:

gevent.spwan(boss).join()

将队列加入的内容整合到gevent里面:

for i in range(10):

jobs.append(gevent.spawn(crawler, i))

gevent.joinall(jobs)

相关推荐
呆萌很10 分钟前
字典推导式练习题
python
tung tung tung sahur21 分钟前
领略 Rust 抽象之美:自定义迭代器实现全解析
开发语言·后端·rust
ftpeak27 分钟前
《Rust MP4视频技术开发》第八章:生成MP4
开发语言·rust·音视频·mp4
闲人编程40 分钟前
Python在云计算中的应用:AWS Lambda函数实战
服务器·python·云计算·aws·lambda·毕设·codecapsule
好学且牛逼的马1 小时前
【SSM框架 | day25 spring IOC 与 DI 注解开发】
java·开发语言
小兔崽子去哪了1 小时前
Python 数据分析环境搭建与工具使用指南
python
_OP_CHEN1 小时前
C++进阶:(四)set系列容器的全面指南
开发语言·c++·stl·set·multiset·关联式容器·setoj题
不惑_1 小时前
Java 使用 FileOutputStream 写 Excel 文件不落盘?
开发语言·python
十五年专注C++开发1 小时前
Qt-VLC: 一个集成VLC的开源跨平台媒体播放库
开发语言·qt·媒体·libvlc·vlc-qt
IT小哥哥呀1 小时前
Python实用技巧:批量处理Excel数据并生成销售报表(含实战案例)
python·pandas·数据可视化·数据处理·报表生成·excel自动化·办公神器