爬虫工作量由小到大的思维转变---<第四十八章 Scrapy 的请求和follow问题>

前言:

有时,在爬取网页的时候,页面可能只能提取到对应的url,但是具体需要提取的信息需要到下一页(url)里面; 这时候,不要在中间件去requests请求去返回response; 用这个方法....

正文:

在Scrapy框架内,如果你想从一个页面提取URL,然后跳转到这个URL以提取数据,最佳做法是

使用Scrapy的请求和回调系统,而不是通过外部的requests库跳转

使用Scrapy的内建方法不仅能更好地利用Scrapy的异步处理能力,而且还能保持Scrapy中间件和项目设置(如Cookies处理、请求延迟、并发请求等)的一致性。

步骤:

从一级页面跳转到二级页面

假设你在一级页面解析方法中(如:parse方法),提取了一个或多个二级页面的URL。你可以使用response.follow方法生成对二级页面的请求,并指定一个回调方法来处理这些页面的响应。

python 复制代码
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com']  # 一级页面URL

    def parse(self, response):
        # 提取二级页面的URL
        next_page_url = response.css('a.next_page::attr(href)').get()  # 假设二级页面URL是这样提取的

        if next_page_url is not None:
            # 使用response.follow跳转到二级页面
            yield response.follow(next_page_url, self.parse_second_page)

    def parse_second_page(self, response):
        # 在这里处理二级页面的响应
        pass

使用Scrapy请求(Request)和回调

如果你需要更多控制(比如添加特定的请求头、Cookies等),也可以直接使用scrapy.Request来创建请求。

yield scrapy.Request(url=next_page_url, callback=self.parse_second_page)

在这段代码中,url参数是你要请求的二级页面的URL,callback参数指定了一个方法(在这个例子中是self.parse_second_page方法),这个方法将会被调用来处理响应。

两者区别和优点:

在Scrapy框架中,response.followscrapy.Request都用于生成对其他页面的请求,但他们在使用上有些微妙的区别与优点。理解这些差异有助于在不同情况下做出更合适的选择。

scrapy.Request

scrapy.Request是Scrapy中生成请求的基本方法。它允许你创建一个请求到指定的URL。scrapy.Request提供了高度的灵活性,允许你指定请求方法(如GET或POST),添加请求头,发送表单数据,设置回调函数处理响应等。

用法示例:
python 复制代码
import scrapy

class MySpider(scrapy.Spider):
    name = 'example_spider'

    def start_requests(self):
        urls = ['http://example.com/page1', 'http://example.com/page2']
        for url in urls:
            # 指定请求的回调方法为parse方法
            yield scrapy.Request(url=url, callback=self.parse)
    
    def parse(self, response):
        # 处理响应的逻辑
        pass

response.follow

response.follow是在Scrapy 1.4.0版本中引入的,相比于scrapy.Request,它提供了一些简化和额外的便利性。主要的便利之处在于不需要完整的URL,response.follow会自动补全相对URL。它也允许直接传递一个选择器或链接提取器(比如response.cssresponse.xpath的结果),而Scrapy会从中提取URL。此外,response.follow继承了当前响应的一些属性,例如编码、cookies等。

用法示例:
python 复制代码
class MySpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用选择器确定下一个URL
        next_page = response.css('a::attr(href)').get()
        if next_page is not None:
            # 不需要提供完整的URL
            yield response.follow(next_page, callback=self.parse_other_page)

    def parse_other_page(self, response):
        # 处理其他页面的逻辑
        pass

或者从一组链接中生成多个请求:

python 复制代码
for href in response.css('ul.items a::attr(href)'):
    yield response.follow(href, self.parse_item)

主要区别

  • URL处理scrapy.Request需要完整的URL,而response.follow可以接受相对URL,自动补全为绝对URL。
  • 便利性response.follow允许直接传递选择器或链接提取器的结果,而scrapy.Request则需要先提取URL。
  • 继承属性response.follow继承了当前响应的某些属性,如编码、cookies等,而用scrapy.Request时需要手动指定。

总结

  • 当你有一个完整的URL或需要更多控制请求(比如改变请求方法或添加特定的头部信息)时,使用scrapy.Request
  • 当你要处理相对URL或者希望从当前响应中继承属性时,使用response.follow更方便简洁。

选择使用哪个主要取决于具体场景和对便利性与灵活性的需求。

相关推荐
数据小爬虫@9 小时前
如何利用java爬虫获得淘宝商品评论
java·开发语言·爬虫
好看资源平台15 小时前
网络爬虫——爬虫项目案例
爬虫·python
躺平的花卷17 小时前
Python爬虫案例八:抓取597招聘网信息并用xlutils进行excel数据的保存
爬虫·excel
爱分享的码瑞哥18 小时前
Python爬虫中的IP封禁问题及其解决方案
爬虫·python·tcp/ip
不做超级小白20 小时前
工欲善其事,必先利其器;爬虫路上,我用抓包
爬虫
Smartdaili China20 小时前
如何在 Microsoft Edge 中设置代理: 快速而简单的方法
前端·爬虫·安全·microsoft·edge·社交·动态住宅代理
好看资源平台1 天前
网络爬虫——综合实战项目:多平台房源信息采集与分析系统
爬虫·python
Tech Synapse1 天前
Python网络爬虫实践案例:爬取猫眼电影Top100
开发语言·爬虫·python
数据小爬虫@2 天前
利用Python爬虫获取淘宝店铺详情
开发语言·爬虫·python
B站计算机毕业设计超人2 天前
计算机毕业设计SparkStreaming+Kafka新能源汽车推荐系统 汽车数据分析可视化大屏 新能源汽车推荐系统 汽车爬虫 汽车大数据 机器学习
数据仓库·爬虫·python·数据分析·kafka·数据可视化·推荐算法