爬虫笔记15——爬取网页数据并使用redis数据库set类型去重存入,以爬取芒果踢V为例

下载redis数据库

首先需要下载redis数据库,可以直接去Redis官网下载。或者可以看这里下载过程。

pycharm项目文件下载redis库

python 复制代码
> pip install redis 

然后在程序中连接redis服务:

python 复制代码
from redis import Redis

redisObj = Redis(host='127.0.0.1', port=6379)

这次笔记记录爬取芒果TV的视频信息,通过md5加密并去重存入Redis数据库。

目标地址:https://www.mgtv.com/lib/2?lastp=list_index&lastp=ch_tv&kind=19&area=10&year=all&sort=c2&chargeInfo=a1&fpa=2912&fpos=

爬取视频的名称,简介、演员及上映时间吧,代码示例:

python 复制代码
import requests
import redis
import pymongo
import hashlib
import json
import time


class MangGuo:
    url = 'https://pianku.api.mgtv.com/rider/list/pcweb/v3?allowedRC=1&platform=pcweb&channelId=2&pn=3&pc=80&hudong=1&_support=10000000&kind=19&area=10&year=all&chargeInfo=a1&sort=c2&feature=all'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
    }

    def __init__(self):
        self.redis_obj = redis.Redis(host="localhost", port=6379)
        self.mongo = pymongo.MongoClient()
        self.mongo_connection = self.mongo['py_spider']['movies']

    @classmethod
    def get_tv_list(cls):
        response = requests.get(cls.url, headers=cls.headers).json()
        # print(response["data"]["hitDocs"])
        return response["data"]["hitDocs"]

    def parse_tv_list(self):
        data_lists = self.get_tv_list()
        for data in data_lists:
            deal_data = dict()
            deal_data["name"] = data["title"]
            deal_data["desc"] = data["story"]
            deal_data["stars"] = data["subtitle"]
            deal_data["year"] = data["year"]
            print(deal_data)
            # obj = hashlib.md5()
            # obj.update(json.dumps(data).encode())
            # res = obj.hexdigest()
            hash_obj = hashlib.md5(json.dumps(deal_data).encode()).hexdigest()
            self.insert_redis(deal_data, hash_obj)

    # 插入数据到Redis数据库并进行去重
    def insert_redis(self, data, hash_data):
        result = self.redis_obj.sadd('movies:filter', hash_data)
        # 插入数据成功返回1,失败返回0
        # print(result)
        if result:
            print('数据插入成功')
            # 插入成功说明是没有重复数据的,也就是作去重后多插入一份到MongoDB数据库
            self.insert_mongodb(data)
        else:
            print('重复数据,插入失败')

    def insert_mongodb(self, data):
        self.mongo_connection.insert_one(data)
        # 休眠测试是否同步
        # time.sleep(1.5)

    def main(self):
        self.parse_tv_list()


if __name__ == '__main__':
    manGuo = MangGuo()
    manGuo.main()

结果如下图,以下是数据库的可视化界面软件:

数据进行加密存入Redis数据库:

数据存入MongoDB:

相关推荐
星霜笔记2 小时前
Docker 部署 MariaDB+phpMyAdmin+Nextcloud 完整教程
运维·数据库·docker·容器·mariadb
_Kayo_5 小时前
node.js 学习笔记3 HTTP
笔记·学习
wyiyiyi7 小时前
【Web后端】Django、flask及其场景——以构建系统原型为例
前端·数据库·后端·python·django·flask
天宇_任8 小时前
Mysql数据库迁移到GaussDB注意事项
数据库·mysql·gaussdb
星星火柴9368 小时前
关于“双指针法“的总结
数据结构·c++·笔记·学习·算法
xiep143833351011 小时前
Ubuntu 安装带证书的 etcd 集群
数据库·etcd
Cx330❀11 小时前
【数据结构初阶】--排序(五):计数排序,排序算法复杂度对比和稳定性分析
c语言·数据结构·经验分享·笔记·算法·排序算法
小幽余生不加糖11 小时前
电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
人工智能·笔记·学习·音视频
Java小白程序员11 小时前
Spring Framework:Java 开发的基石与 Spring 生态的起点
java·数据库·spring
老虎062712 小时前
数据库基础—SQL语句总结及在开发时
数据库·sql·oracle