前言:
有时,在爬取网页的时候,页面可能只能提取到对应的url,但是具体需要提取的信息需要到下一页(url)里面; 这时候,不要在中间件去requests请求去返回response; 用这个方法....
正文:
在Scrapy框架内,如果你想从一个页面提取URL,然后跳转到这个URL以提取数据,最佳做法是
使用Scrapy的请求和回调系统,而不是通过外部的requests
库跳转。
使用Scrapy的内建方法不仅能更好地利用Scrapy的异步处理能力,而且还能保持Scrapy中间件和项目设置(如Cookies处理、请求延迟、并发请求等)的一致性。
步骤:
从一级页面跳转到二级页面
假设你在一级页面解析方法中(如:parse
方法),提取了一个或多个二级页面的URL。你可以使用response.follow
方法生成对二级页面的请求,并指定一个回调方法来处理这些页面的响应。
python
import scrapy
class MySpider(scrapy.Spider):
name = 'my_spider'
start_urls = ['http://example.com'] # 一级页面URL
def parse(self, response):
# 提取二级页面的URL
next_page_url = response.css('a.next_page::attr(href)').get() # 假设二级页面URL是这样提取的
if next_page_url is not None:
# 使用response.follow跳转到二级页面
yield response.follow(next_page_url, self.parse_second_page)
def parse_second_page(self, response):
# 在这里处理二级页面的响应
pass
使用Scrapy请求(Request)和回调
如果你需要更多控制(比如添加特定的请求头、Cookies等),也可以直接使用scrapy.Request
来创建请求。
yield scrapy.Request(url=next_page_url, callback=self.parse_second_page)
在这段代码中,url
参数是你要请求的二级页面的URL,callback
参数指定了一个方法(在这个例子中是self.parse_second_page
方法),这个方法将会被调用来处理响应。
两者区别和优点:
在Scrapy框架中,response.follow
和scrapy.Request
都用于生成对其他页面的请求,但他们在使用上有些微妙的区别与优点。理解这些差异有助于在不同情况下做出更合适的选择。
scrapy.Request
scrapy.Request
是Scrapy中生成请求的基本方法。它允许你创建一个请求到指定的URL。scrapy.Request
提供了高度的灵活性,允许你指定请求方法(如GET或POST),添加请求头,发送表单数据,设置回调函数处理响应等。
用法示例:
python
import scrapy
class MySpider(scrapy.Spider):
name = 'example_spider'
def start_requests(self):
urls = ['http://example.com/page1', 'http://example.com/page2']
for url in urls:
# 指定请求的回调方法为parse方法
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
# 处理响应的逻辑
pass
response.follow
response.follow
是在Scrapy 1.4.0版本中引入的,相比于scrapy.Request
,它提供了一些简化和额外的便利性。主要的便利之处在于不需要完整的URL,response.follow
会自动补全相对URL。它也允许直接传递一个选择器或链接提取器(比如response.css
或response.xpath
的结果),而Scrapy会从中提取URL。此外,response.follow
继承了当前响应的一些属性,例如编码、cookies等。
用法示例:
python
class MySpider(scrapy.Spider):
name = 'example_spider'
start_urls = ['http://example.com']
def parse(self, response):
# 使用选择器确定下一个URL
next_page = response.css('a::attr(href)').get()
if next_page is not None:
# 不需要提供完整的URL
yield response.follow(next_page, callback=self.parse_other_page)
def parse_other_page(self, response):
# 处理其他页面的逻辑
pass
或者从一组链接中生成多个请求:
python
for href in response.css('ul.items a::attr(href)'):
yield response.follow(href, self.parse_item)
主要区别
- URL处理 :
scrapy.Request
需要完整的URL,而response.follow
可以接受相对URL,自动补全为绝对URL。 - 便利性 :
response.follow
允许直接传递选择器或链接提取器的结果,而scrapy.Request
则需要先提取URL。 - 继承属性 :
response.follow
继承了当前响应的某些属性,如编码、cookies等,而用scrapy.Request
时需要手动指定。
总结
- 当你有一个完整的URL或需要更多控制请求(比如改变请求方法或添加特定的头部信息)时,使用
scrapy.Request
。 - 当你要处理相对URL或者希望从当前响应中继承属性时,使用
response.follow
更方便简洁。
选择使用哪个主要取决于具体场景和对便利性与灵活性的需求。