Python爬虫进阶:使用Scrapy库进行数据提取和处理

在我们的初级教程中,我们介绍了如何使用Scrapy创建和运行一个简单的爬虫。在这篇文章中,我们将深入了解Scrapy的强大功能,学习如何使用Scrapy提取和处理数据。

一、数据提取:Selectors和Item

在Scrapy中,提取数据主要通过Selectors来完成。Selectors基于XPath或CSS表达式的查询语言来选取HTML文档中的元素。你可以在你的爬虫中使用response对象的xpathcss方法来创建一个Selector对象。

例如,我们可以修改我们的QuotesSpider爬虫,使用Selectors来提取每个引用的文本和作者:

python 复制代码
import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            text = quote.css('span.text::text').get()
            author = quote.css('span small::text').get()
            print(f'Text: {text}, Author: {author}')

此外,Scrapy还提供了Item类,可以定义你想要收集的数据结构。Item类非常适合收集结构化数据,如我们从quotes.toscrape.com中获取的引用:

python 复制代码
import scrapy

class QuoteItem(scrapy.Item):
    text = scrapy.Field()
    author = scrapy.Field()

然后我们可以修改QuotesSpider爬虫,使其生成和收集QuoteItem对象:

python 复制代码
class QuotesSpider(scrapy.Spider):
    name = "quotes"

    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            item = QuoteItem()
            item['text'] = quote.css('span.text::text').get()
            item['author'] = quote.css('span small::text').get()
            yield item

二、数据处理:Pipelines

Scrapy使用数据管道(pipelines)来处理爬虫从网页中抓取的Item。当爬虫生成一个Item,它将被发送到Item Pipeline进行处理。

Item Pipeline是一些按照执行顺序排列的类,每个类都是一个数据处理单元。每个Item Pipeline组件都是一个Python类,必须实现一个process_item方法。这个方法必须返回一个Item对象,或者抛出DropItem异常,被丢弃的item将不会被之后的pipeline组件所处理。

例如,我们可以添加一个Pipeline,将收集的引用保存到JSON文件中:

python 复制代码
import json

class JsonWriterPipeline(object):

    def open_spider(self, spider):
        self.file = open('quotes.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

然后你需要在项目的设置文件(settings.py)中启用你的Pipeline:

python 复制代码
ITEM_PIPELINES = {
   'tutorial.pipelines.JsonWriterPipeline': 1,
}

在这篇文章中,我们更深入地探讨了Scrapy的功能,包括如何使用Selectors和Item提取数据,如何使用Pipelines处理数据。在下一篇文章中,我们将学习如何使用Scrapy处理更复杂的情况,如登录、cookies、以及如何避免爬虫被网站识别和封锁等问题。

相关推荐
小oo呆2 分钟前
【学习心得】Python好库推荐——pipx
linux·开发语言·python
smile_Iris3 分钟前
Day 28 元组和OS模块
python·机器学习
AI科技星18 分钟前
时空运动的几何约束:张祥前统一场论中圆柱螺旋运动光速不变性的严格数学证明与物理诠释
服务器·数据结构·人工智能·python·科技·算法·生活
AIsdhuang24 分钟前
2025 AI培训权威榜:深度评测与趋势前瞻
人工智能·python·物联网
m0_7269659827 分钟前
RAG小实战
开发语言·python
只与明月听31 分钟前
FastAPI入门实战
前端·后端·python
无心水42 分钟前
【Python实战进阶】12、Python面向对象编程实战:从零构建搜索引擎,掌握封装、继承与多态!
开发语言·python·搜索引擎·python进阶·python面向对象·搜索引擎实战·封装继承多态
mortimer42 分钟前
Python + FFmpeg 视频自动化处理指南:从硬件加速到精确剪辑
python·ffmpeg·音视频开发
帅得不敢出门1 小时前
Android8 Framework实现Ntp服务器多域名轮询同步时间
android·java·服务器·python·framework·github
haiyu_y1 小时前
Day 29 异常处理
python