Scrapy是一个用于Python的快速、高级别的网络爬虫框架,它允许你以快速、简单和可维护的方式抓取网页。Scrapy设计用于抓取大量数据,并且内置了许多功能,如异步网络请求、HTML内容解析、数据持久化等。
下面是一些Scrapy的高级用法和技巧,以及相应的代码示例:
1. 使用Scrapy Shell进行交互式调试
Scrapy Shell是一个内置的交互式调试工具,它可以让你快速测试XPath和CSS选择器。
scrapy shell 'http://example.com'
进入Scrapy Shell后,你可以使用fetch()
方法获取页面内容,并使用view(response)
在浏览器中查看。
fetch('http://example.com')
view(response)
2. 自定义请求和响应处理
你可以通过编写Spider的parse
方法以及其他回调函数来处理请求和响应。
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://example.com']
def parse(self, response):
# 提取数据
self.log('Visited %s' % response.url)
for href in response.css('a::attr(href)').getall():
# 创建新的请求
yield scrapy.Request(response.urljoin(href), self.parse_page)
def parse_page(self, response):
# 处理页面数据
self.log('Visited %s' % response.url)
title = response.css('h1::text').get()
if title:
# 存储数据
yield {'title': title}
3. 使用Item Loaders简化数据提取
Item Loaders提供了一种简单的方法来收集爬取的数据,并且支持多种输入方式,如CSS选择器、XPath等。
from scrapy.loader import ItemLoader
from myproject.items import MyItem
class MySpider(scrapy.Spider):
# ...
def parse_page(self, response):
l = ItemLoader(item=MyItem(), response=response)
l.add_css('name', 'span.name::text')
l.add_xpath('price', '//price/text()')
return l.load_item()
4. 使用Middlewares处理请求和响应
Middlewares允许你在请求被发送或响应被处理之前执行自定义逻辑。
class MyCustomMiddleware:
def process_request(self, request, spider):
# 在请求被发送之前做些什么
pass
def process_response(self, request, response, spider):
# 在响应被处理之前做些什么
return response
# 在Scrapy项目的settings.py中启用middleware
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.MyCustomMiddleware': 543,
}
5. 使用Extensions和Pipelines持久化数据
Extensions和Pipelines允许你实现数据的持久化,如存储到数据库或文件。
class MyPipeline:
def open_spider(self, spider):
self.file = open('items.jl', 'w')
def close_spider(self, spider):
self.file.close()
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
# 在Scrapy项目的settings.py中启用pipeline
ITEM_PIPELINES = {
'myproject.pipelines.MyPipeline': 300,
}
6. 使用CrawlSpiders和Rule-based Link Extractors进行网站爬取
CrawlSpiders允许你使用规则来提取链接并跟进,非常适合爬取大型网站。
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class MySpider(CrawlSpider):
name = 'myspider'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
rules = (
Rule(LinkExtractor(allow=r'Category/\d+'), callback='parse_category_page', follow=True),
Rule(LinkExtractor(allow=r'Product/\d+'), callback='parse_product_page'),
)
def parse_