爬虫工作量由小到大的思维转变---＜第四十八章 Scrapy 的请求和follow问题＞

前言:

有时,在爬取网页的时候,页面可能只能提取到对应的url,但是具体需要提取的信息需要到下一页(url)里面; 这时候,不要在中间件去requests请求去返回response; 用这个方法....

正文:

在Scrapy框架内，如果你想从一个页面提取URL，然后跳转到这个URL以提取数据，最佳做法是

使用Scrapy的请求和回调系统，而不是通过外部的requests库跳转。

使用Scrapy的内建方法不仅能更好地利用Scrapy的异步处理能力，而且还能保持Scrapy中间件和项目设置（如Cookies处理、请求延迟、并发请求等）的一致性。

步骤:

从一级页面跳转到二级页面

假设你在一级页面解析方法中（如：parse方法），提取了一个或多个二级页面的URL。你可以使用response.follow方法生成对二级页面的请求，并指定一个回调方法来处理这些页面的响应。

python 复制代码

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com']  # 一级页面URL

    def parse(self, response):
        # 提取二级页面的URL
        next_page_url = response.css('a.next_page::attr(href)').get()  # 假设二级页面URL是这样提取的

        if next_page_url is not None:
            # 使用response.follow跳转到二级页面
            yield response.follow(next_page_url, self.parse_second_page)

    def parse_second_page(self, response):
        # 在这里处理二级页面的响应
        pass

使用Scrapy请求（Request）和回调

如果你需要更多控制（比如添加特定的请求头、Cookies等），也可以直接使用scrapy.Request来创建请求。

复制代码

yield scrapy.Request(url=next_page_url, callback=self.parse_second_page)

在这段代码中，url参数是你要请求的二级页面的URL，callback参数指定了一个方法（在这个例子中是self.parse_second_page方法），这个方法将会被调用来处理响应。

两者区别和优点:

在Scrapy框架中，response.follow和scrapy.Request都用于生成对其他页面的请求，但他们在使用上有些微妙的区别与优点。理解这些差异有助于在不同情况下做出更合适的选择。

scrapy.Request

scrapy.Request是Scrapy中生成请求的基本方法。它允许你创建一个请求到指定的URL。scrapy.Request提供了高度的灵活性，允许你指定请求方法（如GET或POST），添加请求头，发送表单数据，设置回调函数处理响应等。

用法示例：

python 复制代码

import scrapy

class MySpider(scrapy.Spider):
    name = 'example_spider'

    def start_requests(self):
        urls = ['http://example.com/page1', 'http://example.com/page2']
        for url in urls:
            # 指定请求的回调方法为parse方法
            yield scrapy.Request(url=url, callback=self.parse)
    
    def parse(self, response):
        # 处理响应的逻辑
        pass

response.follow

response.follow是在Scrapy 1.4.0版本中引入的，相比于scrapy.Request，它提供了一些简化和额外的便利性。主要的便利之处在于不需要完整的URL，response.follow会自动补全相对URL。它也允许直接传递一个选择器或链接提取器（比如response.css或response.xpath的结果），而Scrapy会从中提取URL。此外，response.follow继承了当前响应的一些属性，例如编码、cookies等。

用法示例：

python 复制代码

class MySpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用选择器确定下一个URL
        next_page = response.css('a::attr(href)').get()
        if next_page is not None:
            # 不需要提供完整的URL
            yield response.follow(next_page, callback=self.parse_other_page)

    def parse_other_page(self, response):
        # 处理其他页面的逻辑
        pass

或者从一组链接中生成多个请求：

python 复制代码

for href in response.css('ul.items a::attr(href)'):
    yield response.follow(href, self.parse_item)

主要区别

URL处理 ：scrapy.Request需要完整的URL，而response.follow可以接受相对URL，自动补全为绝对URL。
便利性 ：response.follow允许直接传递选择器或链接提取器的结果，而scrapy.Request则需要先提取URL。
继承属性 ：response.follow继承了当前响应的某些属性，如编码、cookies等，而用scrapy.Request时需要手动指定。

总结

当你有一个完整的URL或需要更多控制请求（比如改变请求方法或添加特定的头部信息）时，使用scrapy.Request。
当你要处理相对URL或者希望从当前响应中继承属性时，使用response.follow更方便简洁。

选择使用哪个主要取决于具体场景和对便利性与灵活性的需求。