第十七章 爬虫scrapy登录与中间件2

文章目录

  • [1. 链接提取](#1. 链接提取)
  • [2. crawlspider全站数据爬取](#2. crawlspider全站数据爬取)
  • [3. Redis简单使用](#3. Redis简单使用)

增加爬取延迟 setting文件中,取消注释DOWNLOAD_DELAY = 3

1. 链接提取

python 复制代码
# 导包
from scrapy.linkextractors import LinkExtracto

def parse(self, resp,**kwargs):
	le = LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a',))
	links = le.extract_links(resp)

'''
链接提取方法
def __init__(
        self,
        allow=(),# 允许提取,使用正则
        deny=(), 不允许提取,使用正则
        allow_domains=(), 允许提取的域名
        deny_domains=(),
        restrict_xpaths=(), 使用xpath提取
        tags=("a", "area"),
        attrs=("href",),
        canonicalize=False,
        unique=True,
        process_value=None,
        deny_extensions=None,
        restrict_css=(),
        strip=True,
        restrict_text=None,
    ):

'''

dont_filter 的用法

python 复制代码
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        if response.status != 200:  
            request.dont_filter = True #检查代理是否可用,不可用重复请求
            return request
        return response

2. crawlspider全站数据爬取

python 复制代码
# 创建scrapy全站模板
scrapy genspider -t crawl pachpng baidu.com

class ErshouqicheSpider(CrawlSpider):
    name = "ershouqiche"
    allowed_domains = ["che168.com","autohome.com.cn"]
    start_urls = ["https://www.che168.com/china/list/"]

    rules = (Rule(LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a',)), callback="parse_item", follow=False),
             Rule(LinkExtractor(restrict_xpaths=('//div[@class="page fn-clear"]/a',)), follow=True))

    def parse_item(self, response):
        print(response.url)
        tittle = response.xpath("//h3[@class='car-brand-name']/text()").extract_first()
        price = response.xpath("//span[@id='overlayPrice']/text()").extract_first()
        #item["domain_id"] = response.xpath('//input[@id="sid"]/@value').get()
        #item["name"] = response.xpath('//div[@id="name"]').get()
        #item["description"] = response.xpath('//div[@id="description"]').get()
        print(tittle,price)

3. Redis简单使用

下载:http://redis.cn/download.html

redis命令

sql 复制代码
#将redis安装到windows服务
redis-server.exe --service-install redis.windows. conf --loglevel verbose
#卸载服务:
redis-server --service-uninstall
#开启服务:
redis-server --service-start
#停止服务:
redis-server --service-stop

配置redis

登录redis

RDM redis可视化工具的安装

https://blog.csdn.net/qq_39715000/article/details/120724800

redis常见数据类型

redis中常见的数据类型有5个.

自增

redis操作

hash

列表

集合

redis教程列表

https://www.runoob.com/redis/redis-sorted-sets.html

python使用resid

pip install redis

相关推荐
麦麦大数据3 天前
scrapy爬取汽车、车评数据【上】
scrapy·汽车
A~taoker8 天前
scrapy爬虫基础
爬虫·scrapy
jiaoxingk10 天前
不会JS逆向也能高效结合Scrapy与Selenium实现爬虫抓取
javascript·爬虫·python·selenium·scrapy
计算机学姐10 天前
基于大数据可视化的化妆品推荐及数据分析系统
vue.js·hadoop·spring boot·python·scrapy·mysql·信息可视化
2401_8725149713 天前
Scrapy爬虫IP代理池:提升爬取效率与稳定性
爬虫·tcp/ip·scrapy
北愚15 天前
Scrapy爬虫实战——某瓣250
python·scrapy
Bigcrab__17 天前
Python3网络爬虫开发实战(15)Scrapy 框架的使用(第一版)
爬虫·python·scrapy