内容:写这篇文章是因为最近帮同学改了很多的爬虫代码,感触良多。
我用豆瓣为例,并不是不会用别的,而是这个我个人感觉最经典。然后还会写我遇到的一些问题以及解决方法。
首先,我们得先知道怎样爬取。我用的scrapy框架爬取。
![](https://img-blog.csdnimg.cn/direct/7715b7def93a4e71b62c18216c6063a7.png)
我对此图的理解就是:
从spiders中获得一个请求(REQUEST),通过引擎传递给调度器,之后再返回给引擎,引擎把url封装好后传递给下载器,下载器将资源下载好后返回一个应答(RESPONSE),之后引擎将该应答发送给spiders,让其进行抓取,返回给引擎,然后解析出实体(Items)交给实体管道进行下一步操作。
ok,原理就是这样。下面来开始讲步骤。
python
pip install scrapy
首先要在虚拟环境中下载scrapy库,建议在网络好的环境里下载,最好在pycharm中配置镜像源。
python
scrapy
之后找到Teiminal 中输入这个库名,先进入这个库中,看看有哪些操作。
![](https://img-blog.csdnimg.cn/direct/252b93a8019a45f5af177e7c5c3d6bee.png)
根据指示,开始建项目。
python
scrapy startprojrct pythonProject26
这里就建了一个项目。
python
cd projectProject26
返回上一级,我们会发现操作列表中有crawl,有了这个我们才可以进行网站爬取。
python
scrapy genspider db https://movie.douban.com/top250
python
scrapy crawl db
ok,目前为止,准备工作已经搞定。
接下来我们会看到它帮我们建立了这几个py文件:
![](https://img-blog.csdnimg.cn/direct/1b7197928b7146c38c3a9d0441b851bb.png)
然后我们需要在这个项目下建立一个调试文件,我记作main.py,
python
import os.path
import sys
from scrapy.cmdline import execute
currentFile = os.path.abspath(__file__)
currentPath = os.path.dirname(currentFile)
# print(currentPath)
sys.path.append(currentPath)
execute(["scrapy","crawl","db"])
这个是为了提取到这个项目的路径,让它可以贯穿整个项目(我是这样理解的)。
之后就是编写主程序。它自动给我们弄好了要爬取的域名,还有一个parse函数,只要前面的步骤没错的都应该是这样。
接下来我们先编辑settings.py文件,这个主要是取消对优先级的注释并改掉robots协议的遵循规则。
![](https://img-blog.csdnimg.cn/direct/5b5414754864406ab6c04767f43a7e5d.png)
![](https://img-blog.csdnimg.cn/direct/0ac53710208641b3a0318112116119a8.png)
![](https://img-blog.csdnimg.cn/direct/9f36c18c603143da856b75417ad20ffb.png)
这是它自己创建出来的内容。接下来我继续编写。
先明确目标,我要爬取的是电影名字,导演,评分和简介。所以我采用了先总后分的方式,先提取总资源,再利用循环从中提取出想要的数据。
首先就是总数据:
![](https://img-blog.csdnimg.cn/direct/3b37027fb3e542bf9c49e9e87b83a9c5.png)
接下来用循环取出数据:
![](https://img-blog.csdnimg.cn/direct/00fe1940f3a64b488cdac401ed34dc41.png)
之后我把它放在字典里:
![](https://img-blog.csdnimg.cn/direct/85d00caaa47b49f2bc42fff1a57ec274.png)
之后为了让它一直爬取,用了一个生成器函数。
![](https://img-blog.csdnimg.cn/direct/72e8cae0b616412896c55a0f170c3370.png)
这只是一页的东西,现在多爬几页。
![](https://img-blog.csdnimg.cn/direct/8a9f5e50601e4ad2980338dbf400d20c.png)
这个需要找每一页网址的规律。
![](https://img-blog.csdnimg.cn/direct/68d8fc997560492db415c93bc237a2b9.png)
接下来我把它保存在一个data1.txt里面。在pipelines.py:
![](https://img-blog.csdnimg.cn/direct/225be31c293f4b88a4f0bb18c47a10fd.png)
我相信大家能看懂的,看不懂再说。
接下来就是连接数据库:
我搞的有点复杂,因为我刚开始不知道有另一种方法,所以我就记录我的方法了。
首先,在数据库里创建一个新表。
然后,我们需要在pycharm中下载一个库。
python
pip install mysql-connector-python
然后就是连接数据库。
python
import mysql.connector
# 连接到MySQL数据库
conn = mysql.connector.connect(
host="your_host",
user="your_username",
password="your_password",
database="my_database"
)
# 创建一个游标对象
cursor = conn.cursor()
# 打开文本文件
with open('your_data.txt', 'r') as file:
for line in file:
# 去除换行符
title = line.strip()
# 插入数据
sql = "INSERT INTO my_table (title) VALUES (%s)"
cursor.execute(sql, (title,))
# 提交事务
conn.commit()
# 关闭游标和连接
cursor.close()
conn.close()
里面的host,port,user,password,database,这些东西都要自己改。
ok,这就是完整的思路及代码。
我在帮别人改代码的过程中,发现了很多问题。首先就是网站选取。
我一直以为这个不是问题,但是终究是我认为,这不得找点有规律的网站吗?
其次就是数据提取,我用的是xpath ;
还有代码编写错误。
就不展开了,有问题欢迎来问我,这篇就这样了。