爬虫阶段思考

内容:写这篇文章是因为最近帮同学改了很多的爬虫代码,感触良多。

我用豆瓣为例,并不是不会用别的,而是这个我个人感觉最经典。然后还会写我遇到的一些问题以及解决方法。

首先,我们得先知道怎样爬取。我用的scrapy框架爬取。

我对此图的理解就是:

从spiders中获得一个请求(REQUEST),通过引擎传递给调度器,之后再返回给引擎,引擎把url封装好后传递给下载器,下载器将资源下载好后返回一个应答(RESPONSE),之后引擎将该应答发送给spiders,让其进行抓取,返回给引擎,然后解析出实体(Items)交给实体管道进行下一步操作。

ok,原理就是这样。下面来开始讲步骤。

python 复制代码
pip install scrapy

首先要在虚拟环境中下载scrapy库,建议在网络好的环境里下载,最好在pycharm中配置镜像源。

python 复制代码
scrapy

之后找到Teiminal 中输入这个库名,先进入这个库中,看看有哪些操作。

根据指示,开始建项目。

python 复制代码
scrapy startprojrct pythonProject26

这里就建了一个项目。

python 复制代码
cd projectProject26

返回上一级,我们会发现操作列表中有crawl,有了这个我们才可以进行网站爬取。

python 复制代码
scrapy genspider db https://movie.douban.com/top250
python 复制代码
scrapy crawl db

ok,目前为止,准备工作已经搞定。

接下来我们会看到它帮我们建立了这几个py文件:

然后我们需要在这个项目下建立一个调试文件,我记作main.py

python 复制代码
import os.path
import sys
from scrapy.cmdline import execute
currentFile = os.path.abspath(__file__)
currentPath = os.path.dirname(currentFile)
# print(currentPath)
sys.path.append(currentPath)
execute(["scrapy","crawl","db"])

这个是为了提取到这个项目的路径,让它可以贯穿整个项目(我是这样理解的)。

之后就是编写主程序。它自动给我们弄好了要爬取的域名,还有一个parse函数,只要前面的步骤没错的都应该是这样。

接下来我们先编辑settings.py文件,这个主要是取消对优先级的注释并改掉robots协议的遵循规则。

接下来是db.py

这是它自己创建出来的内容。接下来我继续编写。

先明确目标,我要爬取的是电影名字,导演,评分和简介。所以我采用了先总后分的方式,先提取总资源,再利用循环从中提取出想要的数据。

首先就是总数据:

接下来用循环取出数据:

之后我把它放在字典里:

之后为了让它一直爬取,用了一个生成器函数。

这只是一页的东西,现在多爬几页。

这个需要找每一页网址的规律。

然后就来到items.py

接下来我把它保存在一个data1.txt里面。在pipelines.py

我相信大家能看懂的,看不懂再说。

接下来就是连接数据库:

我搞的有点复杂,因为我刚开始不知道有另一种方法,所以我就记录我的方法了。

首先,在数据库里创建一个新表。

然后,我们需要在pycharm中下载一个库。

python 复制代码
pip install mysql-connector-python

然后就是连接数据库。

python 复制代码
import mysql.connector

# 连接到MySQL数据库
conn = mysql.connector.connect(
    host="your_host",
    user="your_username",
    password="your_password",
    database="my_database"
)

# 创建一个游标对象
cursor = conn.cursor()

# 打开文本文件
with open('your_data.txt', 'r') as file:
    for line in file:
        # 去除换行符
        title = line.strip()
        # 插入数据
        sql = "INSERT INTO my_table (title) VALUES (%s)"
        cursor.execute(sql, (title,))

# 提交事务
conn.commit()

# 关闭游标和连接
cursor.close()
conn.close()

里面的host,port,user,password,database,这些东西都要自己改。


ok,这就是完整的思路及代码。

我在帮别人改代码的过程中,发现了很多问题。首先就是网站选取。

我一直以为这个不是问题,但是终究是我认为,这不得找点有规律的网站吗?

其次就是数据提取,我用的是xpath ;

还有代码编写错误。

就不展开了,有问题欢迎来问我,这篇就这样了。

相关推荐
@杨某4 小时前
超级鹰的使用
爬虫·selenium
小白学大数据4 小时前
百科词条结构化抓取:Java 正则表达式与 XPath 解析对比
java·开发语言·爬虫·正则表达式
泡泡以安6 小时前
【爬虫教程】第4章:HTTP客户端库深度定制(httpx/aiohttp)
爬虫·http·httpx
搞全栈小苏6 小时前
【Python 爬虫实战】一键批量下载 Python 官网 FTP 所有版本全部文件(多线程 + 断点续传 + 禁用系统代理 完整版)
开发语言·爬虫·python
泡泡以安6 小时前
【爬虫教程】第5章:WebSocket协议解析与长连接管理
爬虫·websocket·网络协议
laocooon5238578866 小时前
《网络爬虫实战:小说内容抓取》教案
爬虫
亿牛云爬虫专家18 小时前
Worker越简单,系统越稳定:从单机到集群
爬虫·python·集群·爬虫代理·单机·代理ip·worker
是有头发的程序猿1 天前
Python爬虫防检测实战:基于类封装的工程化解决方案(2026)
开发语言·爬虫·python
B站计算机毕业设计之家1 天前
AI大模型:基于大数据动漫数据分析可视化系统 漫画 番剧 知音漫客 Django框架 requests爬虫 大数据毕业设计(建议收藏)✅
大数据·人工智能·爬虫·python·数据分析·django·动漫
有味道的男人1 天前
京东关键词搜索商品列表的Python爬虫实战
开发语言·爬虫·python