第十七章 爬虫scrapy登录与中间件2

文章目录

  • [1. 链接提取](#1. 链接提取)
  • [2. crawlspider全站数据爬取](#2. crawlspider全站数据爬取)
  • [3. Redis简单使用](#3. Redis简单使用)

增加爬取延迟 setting文件中,取消注释DOWNLOAD_DELAY = 3

1. 链接提取

python 复制代码
# 导包
from scrapy.linkextractors import LinkExtracto

def parse(self, resp,**kwargs):
	le = LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a',))
	links = le.extract_links(resp)

'''
链接提取方法
def __init__(
        self,
        allow=(),# 允许提取,使用正则
        deny=(), 不允许提取,使用正则
        allow_domains=(), 允许提取的域名
        deny_domains=(),
        restrict_xpaths=(), 使用xpath提取
        tags=("a", "area"),
        attrs=("href",),
        canonicalize=False,
        unique=True,
        process_value=None,
        deny_extensions=None,
        restrict_css=(),
        strip=True,
        restrict_text=None,
    ):

'''

dont_filter 的用法

python 复制代码
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        if response.status != 200:  
            request.dont_filter = True #检查代理是否可用,不可用重复请求
            return request
        return response

2. crawlspider全站数据爬取

python 复制代码
# 创建scrapy全站模板
scrapy genspider -t crawl pachpng baidu.com

class ErshouqicheSpider(CrawlSpider):
    name = "ershouqiche"
    allowed_domains = ["che168.com","autohome.com.cn"]
    start_urls = ["https://www.che168.com/china/list/"]

    rules = (Rule(LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a',)), callback="parse_item", follow=False),
             Rule(LinkExtractor(restrict_xpaths=('//div[@class="page fn-clear"]/a',)), follow=True))

    def parse_item(self, response):
        print(response.url)
        tittle = response.xpath("//h3[@class='car-brand-name']/text()").extract_first()
        price = response.xpath("//span[@id='overlayPrice']/text()").extract_first()
        #item["domain_id"] = response.xpath('//input[@id="sid"]/@value').get()
        #item["name"] = response.xpath('//div[@id="name"]').get()
        #item["description"] = response.xpath('//div[@id="description"]').get()
        print(tittle,price)

3. Redis简单使用

下载:http://redis.cn/download.html

redis命令

sql 复制代码
#将redis安装到windows服务
redis-server.exe --service-install redis.windows. conf --loglevel verbose
#卸载服务:
redis-server --service-uninstall
#开启服务:
redis-server --service-start
#停止服务:
redis-server --service-stop

配置redis

登录redis

RDM redis可视化工具的安装

https://blog.csdn.net/qq_39715000/article/details/120724800

redis常见数据类型

redis中常见的数据类型有5个.

自增

redis操作

hash

列表

集合

redis教程列表

https://www.runoob.com/redis/redis-sorted-sets.html

python使用resid

pip install redis

相关推荐
深蓝电商API1 天前
Scrapy+Rredis实现分布式爬虫入门与优化
分布式·爬虫·scrapy
深蓝电商API2 天前
Scrapy中间件实战:自定义请求头和代理池实现
python·scrapy·中间件
智航GIS2 天前
10.6 Scrapy:Python 网页爬取框架
python·scrapy·信息可视化
@杨某6 天前
scrapy的暂停与重启
scrapy
@杨某7 天前
selenium嵌入scrapy动态网页抓取
selenium·测试工具·scrapy
猫头虎9 天前
如何解决pip报错 import pandas as pd ModuleNotFoundError: No module named ‘pandas‘问题
java·python·scrapy·beautifulsoup·pandas·pip·scipy
qq_139484288212 天前
python基于大数据技术的酒店消费数据分析系统
大数据·python·scrapy·django·flask
小白学大数据15 天前
Python 网络爬虫:Scrapy 解析汽车之家报价与评测
开发语言·爬虫·python·scrapy
Elaine33615 天前
实战教学:使用 Scrapy 爬取 CSDN 文章与用户头像
python·scrapy·网络爬虫
Elaine33616 天前
深度实战:基于 Scrapy CrawlSpider 的全自动化教程采集系统
python·scrapy·自动化·网络爬虫