Scrapy与MongoDB

Scrapy可以在非常短的时间里获取大量的数据。这些数据无论是直接保存为纯文本文件还是CSV文件,都是不可取的。爬取一个小时就可以让这些文件大到无法打开。这个时候,就需要使用数据库来保存数据了。

MongoDB由于其出色的性能,已经成为爬虫的首选数据库。它的出现,使得Scrapy如虎添翼,从此可以放心大胆地爬数据了。

一、 items和pipelines的设置

为了将Scrapy获取到的数据保存到MongoDB中,应先定义需要抓取的数据。假设需要抓取的信息为name(名字)、age(年龄)、salary(收入)、phone(手机号),那么items可以按照如图所示进行定义。

一个Scrapy工程可以有多个爬虫;再看items.py文件,可以发现,在一个items.py里面可以对不同的爬虫定义不同的抓取内容Item。

接下来设置pipelines.py。在这个文件中,需要写出将数据保存到MongoDB的代码。而这里的代码,就是最简单的初始化MongoDB的连接,保存数据,如图所示。

其中,第9行内容用来得到在settings.py中设置好的数据库相关信息。

from scrapy.conf import settings

settings.py中的信息都是按照以下格式写的,如图:

名字  = 值

当在Scrapy工程中需要使用这些配置信息的时候,首选从scrapy.conf中导入settings,然后就可以像使用字典一样从settings中读取数据了:

settings[名字]

数据库的信息也可以写到settings.py中,如图:

这里的"MONGODB_HOST"可根据实际情况修改:如果MongoDB运行在爬虫所在的计算机上,那就写"127.0.0.1";如果专门有一台计算机来运行数据库,那么就设置成对应计算机的IP地址。

这样统一配置的好处在于,如果数据库进行了修改,那么直接修改settings.py就可以了,不需要在Scrapy的工程里面找哪些地方用了数据库的信息。统一配置是对一个工程的基本要求。

items.py和pipelines.py设置好以后,Scrapy就可以使用MongoDB来保存数据了。

二、在Scrapy中使用MongoDB

在设置好items.py和pipelines.py以后,Scrapy已经具备了使用MongoDB来保存数据的要素。此时条件虽然有了,但是还需要告诉Scrapy应该使用pipelines.py中设置的流程来保存数据。所以这个时候需要在settings.py中"告诉"Scrapy,让它知道爬取到的数据应该传到哪里。

在settings.py中,下面几行数据是被默认注释掉的:

现在需要解除注释,并设置成定义好的pipeline,其中,它默认的"SomePipeline"需要改成"BaiduPipeline",如图:

这里的ITEM_PIPELINES本质上就是一个字典,它的Key是"BaiduPipeline"的路径,而Value是一个数字300。为什么这里会有一个数字?

实际上,如果仔细观察会发现,pipelines.py文件的文件名是"pipelines",在英文中这是一个复数名词。而"BaiduPipeline"是一个单数名词。所以,pipelines.py和前面的items.py一样,可以在里面定义多个不同的pipeline来处理数据。这也是为什么图中有一个数字"300",这个数字称为优先级,数字越大,优先级越低。习惯上,这个数字使用整百数。所以在ITEM_PIPELINES这个字典中也可以按照字典的格式写很多个不同的pipeline,数据会先经过数字小的pipeline,再经过数字大的pipeline。

现在Scrapy已经知道需要把items中的数据发到pipeline中来使用了。接下来的问题是,如何把爬虫爬取到的数据存放在item中。

例 :从下面的HTML代码中提取出每个人的姓名、年龄、月薪和电话,并将它们保存到MongoDB中。

现在,需要做的就是将爬取到的数据放入item中。在Scrapy中,item初始化以后可以像字典一样被调用,如下面代码所示。

在上面的代码中,往item中添加数据不过就是实例化PersonInfoItem这个类,然后像字典一样使用而已。而代码的最后一行,yield item则是将已经存放好数据的item提交给pipeline来执行。

yield是Python的一个关键字,使用的时候,代码看起来和return很像,但是它返回的是一个"生成器"对象,而不是某些具体的值。生成器里面的代码在被迭代的时候才会执行且只执行一次。不过这些过程会由Scrapy帮忙实现,所以这里只需要使用yield提交item即可。

请思考一个问题,为什么下面这一行代码要放在循环的里面而不是外面?

item = PersonInfoItem()

因为每一次循环都对应了一个人的信息,所以有多少个人就应该有多少个PersonInfoItem的实例。如果实例化PersonInfoItem放在循环外面,那么只能得到一个PersonInfoItem,因此只能保存一个人的内容。在循环进行的过程中,后面的数据会覆盖前面的数据,循环结束以后,最终只能得到最后一个人的信息。


没有自由的秩序和没有秩序的自由,同样具有破坏性。

相关推荐
夏木~6 分钟前
Oracle 中什么情况下 可以使用 EXISTS 替代 IN 提高查询效率
数据库·oracle
W21558 分钟前
Liunx下MySQL:表的约束
数据库·mysql
黄名富13 分钟前
Redis 附加功能(二)— 自动过期、流水线与事务及Lua脚本
java·数据库·redis·lua
言、雲18 分钟前
从tryLock()源码来出发,解析Redisson的重试机制和看门狗机制
java·开发语言·数据库
一个程序员_zhangzhen1 小时前
sqlserver新建用户并分配对视图的只读权限
数据库·sqlserver
zfj3211 小时前
学技术学英文:代码中的锁:悲观锁和乐观锁
数据库·乐观锁··悲观锁·竞态条件
吴冰_hogan1 小时前
MySQL InnoDB 存储引擎 Redo Log(重做日志)详解
数据库·oracle
nbsaas-boot1 小时前
探索 JSON 数据在关系型数据库中的应用:MySQL 与 SQL Server 的对比
数据库·mysql·json
cmdch20171 小时前
Mybatis加密解密查询操作(sql前),where要传入加密后的字段时遇到的问题
数据库·sql·mybatis
程序员学习随笔1 小时前
PostgreSQL技术内幕21:SysLogger日志收集器的工作原理
数据库·postgresql