Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。

该爬虫框架适合于那种静态页面, js 加载的话,如果你无法模拟它的 API 请求,可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了

入门

python 复制代码
import scrapy

class BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['https://www.zyte.com/blog/']

    def parse(self, response):
        for title in response.css('.oxy-post-title'):
            # 返回对象
            yield {'title': title.css('::text').get()}

        for next_page in response.css('a.next'):
            # 返回一个连接,爬虫框架会继续请求这个连接,得到响应后再回调 parse 方法
            yield response.follow(next_page, self.parse)

运行

bash 复制代码
scrapy runspider myspider.py

代码中通过 main 方式运行调试

python 复制代码
# _*_ coding: utf-8 _*_
import os, sys, pprint
from scrapy.cmdline import execute


def build_base_config():
    current_dir_path = os.path.dirname(os.path.abspath(__file__))
    # sys.path.append(current_dir_name)  # 入口文件 与模块查找路径、import 相对路径导入有影响
    print('\n当前路径 PATH:', current_dir_path)
    # pprint.pprint(sys.path)
    filepath, file_name = os.path.split(current_dir_path)
    spiders_name = file_name
    spiders_name = "bestbuy_new_ca"
    return current_dir_path, spiders_name

def run_product_review():
    """
    运行产品评论
    """
    current_dir_path, spiders_name = build_base_config()
    # 结果输出到本地 json 文件
    execute(['scrapy', 'crawl', spiders_name + '-products_review',
             f'-o{current_dir_path}/temp/product-review.json',
             '-LDEBUG',
             f'-apath={current_dir_path}/temp/review-links.json',
             '-acollect_exist=1'
             ])


if __name__ == '__main__':
    run_product_review()
    pass

简单说:使用了 scrapy.cmdline 提供的工具,执行的命令和在命令行中的一致,只是这种方式可以在 idea 工具中进行 debug 调试

入门和实际开发的不同之处:

  1. 开发上:
    a.入门:例子相对简单,工程结构也不怎么注重
    b.生产:相对复杂,在核心开发上差不多,也是如何去解析 html 结构,工程结构上为了调度和复用,可能会更复杂一点
  2. 调度平台:
    a.有使用一些开源的调度平台,因为是通用
    b.还有的可能会再开源的调度平台上,再包装一层自己的调度平台,仅用来展示(符合产品经理的设计)

官方对于动态内容的引导

https://docs.scrapy.org/en/latest/topics/dynamic-content.html

个人感觉这里提供的知识点还是非常具有参考价值的,简单总结:

  • 使用 scrapy shell 工具定位数据源

    $ scrapy shell "quotes.toscrape.com/scroll"
    (...)

    view(response)

  • 使用 scrapy fetch 工具获取响应到文件,这类似与查看网页源代码

    scrapy fetch --nolog https://example.com > response.html

  • 复制请求:在浏览器中可以将请求复制为 curl 格式,然后可以使用 form_curl() 来使用

    from scrapy import Request

    request = Request.from_curl(
    "curl 'https://quotes.toscrape.com/api/quotes?page=1' -H 'User-Agent: Mozil"
    "la/5.0 (X11; Linux x86_64; rv:67.0) Gecko/20100101 Firefox/67.0' -H 'Acce"
    "pt: /' -H 'Accept-Language: ca,en-US;q=0.7,en;q=0.3' --compressed -H 'X"
    "-Requested-With: XMLHttpRequest' -H 'Proxy-Authorization: Basic QFRLLTAzM"
    "zEwZTAxLTk5MWUtNDFiNC1iZWRmLTJjNGI4M2ZiNDBmNDpAVEstMDMzMTBlMDEtOTkxZS00MW"
    "I0LWJlZGYtMmM0YjgzZmI0MGY0' -H 'Connection: keep-alive' -H 'Referer: http"
    "://quotes.toscrape.com/scroll' -H 'Cache-Control: max-age=0'")

  • 解析 JavaScript 代码:html 中有些网站会出现 <script>中间是大段的 json 数据有可能是变量,也有可能是初始化数据之类的</script>,就可以使用

    比如是
    var data = {"field": "value"};

    可以使用如下的方式匹配
    pattern = r'\bvar\s+data\s*=\s*({.?})\s;\s*\n'
    json_data = response.css('script::text').re_first(pattern)
    json.loads(json_data)
    {'field': 'value'}

相关推荐
Envyᥫᩣ2 分钟前
Python中的自然语言处理:从基础到高级
python·自然语言处理·easyui
哪 吒2 分钟前
华为OD机试 - 几何平均值最大子数(Python/JS/C/C++ 2024 E卷 200分)
javascript·python·华为od
我是陈泽5 分钟前
一行 Python 代码能实现什么丧心病狂的功能?圣诞树源代码
开发语言·python·程序员·编程·python教程·python学习·python教学
hakesashou6 分钟前
python全栈开发是什么?
python
创作小达人25 分钟前
家政服务|基于springBoot的家政服务平台设计与实现(附项目源码+论文+数据库)
开发语言·python
ZPC821035 分钟前
Python使用matplotlib绘制图形大全(曲线图、条形图、饼图等)
开发语言·python·matplotlib
镜花照无眠37 分钟前
Python爬虫使用实例-mdrama
开发语言·爬虫·python
aaasssdddd961 小时前
python和c
c语言·开发语言·python
爱写代码的小朋友1 小时前
Python的几个高级特性
python
Eric.Lee20211 小时前
数据集-目标检测系列- 螃蟹 检测数据集 crab >> DataBall
python·深度学习·算法·目标检测·计算机视觉·数据集·螃蟹检测