Python 爬虫 之scrapy 框架

文章目录

常用的命令

Scrapy是一个用于爬取网站数据的Python框架,以下是一些常用的Scrapy命令:

开始的时候 用 cd 进入你想创建scrapy 的文件夹 ,然后开始下面的操作

  1. 创建新的Scrapy项目:

    复制代码
    scrapy startproject project_name

    这个命令会创建一个新的Scrapy项目,其中project_name是你为项目指定的名称。

  2. 创建一个新的Spider:

    复制代码
    scrapy genspider spider_name website_url

    这个命令会生成一个新的Spider文件,你需要提供spider_name作为Spider的名称和website_url作为爬取的起始网址。

  3. 运行Spider:

    复制代码
    scrapy crawl spider_name

    这个命令会启动指定的Spider,开始爬取数据。你需要将spider_name替换为你要运行的Spider的名称。

  4. 导出爬取数据为JSON文件:

    复制代码
    scrapy crawl spider_name -o output.json

    这个命令会运行Spider并将爬取的数据导出为一个JSON文件。你可以将output.json替换为你想要的输出文件名和格式。

  5. 导出爬取数据为CSV文件:

    复制代码
    scrapy crawl spider_name -o output.csv

    这个命令与上面的命令类似,不过它将数据导出为CSV格式。

  6. 查看可用的Spider:

    复制代码
    scrapy list

    这个命令会列出项目中所有可用的Spider,你可以选择其中一个来运行。

  7. 检查Spider的数据爬取情况:

    复制代码
    scrapy crawl spider_name --loglevel=INFO

    这个命令会以INFO级别的日志显示Spider的爬取情况,有助于调试和监视爬取过程。

  8. 检查Spider的爬取速度和性能:

    复制代码
    scrapy crawl spider_name --profile=output.cprofile

    这个命令会生成性能分析文件,你可以使用工具来分析Spider的性能瓶颈。

开始爬虫

请求与响应

python 复制代码
import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example" #爬虫的名字(唯一)
    allowed_domains = ["ssr1.scrape.center"] # 限定的域名,可选
    start_urls = ["https://ssr1.scrape.center/"] #当前的域名

    def parse(self, response): 
    # 当在命令行运行scrapy crawl example 之后会发送请求,得到一个响应对象responce
        print(response.text)
        print(response.status)
        pass

让控制台只输出想要的信息

在你的settings 文件中加入

python 复制代码
LOG_FILE = "爬虫名字.log"

这样,那些日志就只会存储在日志文件中,而不是在控制台中

创建一个py 文件来帮忙运行爬虫

在你的爬虫项目里创建一个py 文件

在你的run 文件中

python 复制代码
from scrapy.cmdline import execute

execute(["scrapy","crawl","example"])
# 对应于你的运行scrapy crawl example
#这样你就可以直接运行run 文件来实现你的结果了

工作原理图

实战

网站https://ssr1.scrape.center/爬取电影名

python 复制代码
import scrapy
from lxml import etree

class ExampleSpider(scrapy.Spider):
    name = "example" #爬虫名字
    allowed_domains = ["ssr1.scrape.center"] #限定的域名(可选)
    start_urls = ["https://ssr1.scrape.center/"]# 起始的域名

    def parse(self, response):
        html = etree.HTML(response.text)#对返回的html 文本进行解析
        allname = html.xpath(r'//h2[@class="m-b-sm"]/text()')# 寻找电影名字
        print(allname)
        pass

效果:

相关推荐
学测绘的小杨1 天前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
zzzzzz3101 天前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐1 天前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱2 天前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot2 天前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海2 天前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱2 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
Caco_D2 天前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
曲幽2 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码2 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python