Scrapy与MongoDB - 技术栈

Scrapy可以在非常短的时间里获取大量的数据。这些数据无论是直接保存为纯文本文件还是CSV文件，都是不可取的。爬取一个小时就可以让这些文件大到无法打开。这个时候，就需要使用数据库来保存数据了。

MongoDB由于其出色的性能，已经成为爬虫的首选数据库。它的出现，使得Scrapy如虎添翼，从此可以放心大胆地爬数据了。

一、 items和pipelines的设置

为了将Scrapy获取到的数据保存到MongoDB中，应先定义需要抓取的数据。假设需要抓取的信息为name（名字）、age（年龄）、salary（收入）、phone（手机号），那么items可以按照如图所示进行定义。

一个Scrapy工程可以有多个爬虫；再看items.py文件，可以发现，在一个items.py里面可以对不同的爬虫定义不同的抓取内容Item。

接下来设置pipelines.py。在这个文件中，需要写出将数据保存到MongoDB的代码。而这里的代码，就是最简单的初始化MongoDB的连接，保存数据，如图所示。

其中，第9行内容用来得到在settings.py中设置好的数据库相关信息。

复制代码

from scrapy.conf import settings

settings.py中的信息都是按照以下格式写的，如图：

复制代码

名字  = 值

当在Scrapy工程中需要使用这些配置信息的时候，首选从scrapy.conf中导入settings，然后就可以像使用字典一样从settings中读取数据了：

复制代码

settings[名字]

数据库的信息也可以写到settings.py中，如图：

这里的"MONGODB_HOST"可根据实际情况修改：如果MongoDB运行在爬虫所在的计算机上，那就写"127.0.0.1"；如果专门有一台计算机来运行数据库，那么就设置成对应计算机的IP地址。

这样统一配置的好处在于，如果数据库进行了修改，那么直接修改settings.py就可以了，不需要在Scrapy的工程里面找哪些地方用了数据库的信息。统一配置是对一个工程的基本要求。

items.py和pipelines.py设置好以后，Scrapy就可以使用MongoDB来保存数据了。

二、在Scrapy中使用MongoDB

在设置好items.py和pipelines.py以后，Scrapy已经具备了使用MongoDB来保存数据的要素。此时条件虽然有了，但是还需要告诉Scrapy应该使用pipelines.py中设置的流程来保存数据。所以这个时候需要在settings.py中"告诉"Scrapy，让它知道爬取到的数据应该传到哪里。

在settings.py中，下面几行数据是被默认注释掉的：

现在需要解除注释，并设置成定义好的pipeline，其中，它默认的"SomePipeline"需要改成"BaiduPipeline"，如图:

这里的ITEM_PIPELINES本质上就是一个字典，它的Key是"BaiduPipeline"的路径，而Value是一个数字300。为什么这里会有一个数字？

实际上，如果仔细观察会发现，pipelines.py文件的文件名是"pipelines"，在英文中这是一个复数名词。而"BaiduPipeline"是一个单数名词。所以，pipelines.py和前面的items.py一样，可以在里面定义多个不同的pipeline来处理数据。这也是为什么图中有一个数字"300"，这个数字称为优先级，数字越大，优先级越低。习惯上，这个数字使用整百数。所以在ITEM_PIPELINES这个字典中也可以按照字典的格式写很多个不同的pipeline，数据会先经过数字小的pipeline，再经过数字大的pipeline。

现在Scrapy已经知道需要把items中的数据发到pipeline中来使用了。接下来的问题是，如何把爬虫爬取到的数据存放在item中。

例：从下面的HTML代码中提取出每个人的姓名、年龄、月薪和电话，并将它们保存到MongoDB中。

现在，需要做的就是将爬取到的数据放入item中。在Scrapy中，item初始化以后可以像字典一样被调用，如下面代码所示。

在上面的代码中，往item中添加数据不过就是实例化PersonInfoItem这个类，然后像字典一样使用而已。而代码的最后一行，yield item则是将已经存放好数据的item提交给pipeline来执行。

yield是Python的一个关键字，使用的时候，代码看起来和return很像，但是它返回的是一个"生成器"对象，而不是某些具体的值。生成器里面的代码在被迭代的时候才会执行且只执行一次。不过这些过程会由Scrapy帮忙实现，所以这里只需要使用yield提交item即可。

请思考一个问题，为什么下面这一行代码要放在循环的里面而不是外面？

复制代码

item = PersonInfoItem()

因为每一次循环都对应了一个人的信息，所以有多少个人就应该有多少个PersonInfoItem的实例。如果实例化PersonInfoItem放在循环外面，那么只能得到一个PersonInfoItem，因此只能保存一个人的内容。在循环进行的过程中，后面的数据会覆盖前面的数据，循环结束以后，最终只能得到最后一个人的信息。

没有自由的秩序和没有秩序的自由，同样具有破坏性。