Python爬取豆瓣电影全部分类数据并存入数据库

在当今数字化的时代,网络上丰富的影视资源信息吸引着众多开发者去挖掘和利用。今天,我就来和大家分享一段有趣的代码,它能够从豆瓣电影平台获取相关数据并存储到数据库中哦。

结果展示(文末附完整代码):

目录

结果展示(文末附完整代码):

一、代码准备

[二、Douban 类的初始化](#二、Douban 类的初始化)

[1. 请求头设置](#1. 请求头设置)

[2. Cookie 设置](#2. Cookie 设置)

[3. 数据库连接](#3. 数据库连接)

三、获取电影种类相关数据

[1. 初始请求](#1. 初始请求)

[2. 进一步处理](#2. 进一步处理)

四、解析并存储数据

[1. 请求数据](#1. 请求数据)

[2. 数据处理与存储](#2. 数据处理与存储)

完整代码:


一、代码准备

首先,我们看到这段代码开头进行了一系列的导入操作。它引入了像 re(用于正则表达式处理)、pymysql(用于与 MySQL 数据库进行交互)、requests(方便发送 HTTP 请求)以及 lxml(用于解析 HTML 等)这些非常实用的库。

python 复制代码
# -*- coding:utf-8 -*-
import re
import pymysql
import requests
from lxml import etree

二、Douban 类的初始化

接下来,定义了一个名为 Douban 的类。在这个类的初始化方法 __init__ 中,做了很多重要的设置。

1. 请求头设置

设置了 headers,这里面包含了各种关于请求的信息,比如接受的内容类型、语言偏好、缓存控制等等。这些设置能够让我们的请求更符合豆瓣服务器的要求,顺利获取到数据。例如:

python 复制代码
self.headers = {
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    // 其他设置省略
}

同时,也配置了 cookies,这些是在之前与豆瓣网站交互过程中可能留下的一些标识信息,对于后续请求获取准确数据也起到了一定的作用哦。比如:

python 复制代码
self.cookies = {
    "_pk_id.100001.4cf6": "f993e3f352d610f5.1712975414.",
    "__gads": "ID=8f742f4360ad4561:T=1712975416:RT=1712975416:S=ALNI_MYEjjG_8aAehpZQ58LPXuy8119UYQ",
    // 其他设置省略
}

3. 数据库连接

还建立了与 MySQL 数据库的连接哦。指定了数据库的主机地址(这里是本地的 127.0.0.1)、端口(3306)、用户名(root)、密码(921108)以及要使用的数据库名(data),并且创建了一个游标,以便后续执行 SQL 语句呢。

python 复制代码
self.db = pymysql.Connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='921108',
    db='data'
)
self.cursor = self.db.cursor()

三、获取电影种类相关数据

Douban 类中有一个 get_zhonglei 方法,它主要负责获取电影的种类相关信息。

1. 初始请求

首先,它会向豆瓣电影的排行榜页面(https://movie.douban.com/chart)发送一个 GET 请求,带上之前设置好的 headerscookies。然后通过 lxmletree 来解析获取到的 HTML 内容,找到页面中相关的 span 元素列表。

python 复制代码
url = "https://movie.douban.com/chart"
response = requests.get(url, headers=self.headers, cookies=self.cookies).text
html = etree.HTML(response)
span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')

2. 进一步处理

对于每个找到的 span 元素,它会提取出其中链接的 href 属性值,通过正则表达式从 href 中获取到电影类型对应的编号 type_。然后根据这个编号构建新的请求链接,再次发送请求获取到该类型电影的总数 filtered_total,最后调用 parse 方法来进一步处理这些数据哦。

python 复制代码
for span in span_list:
    href = span.xpath('./a/@href')[0]
    type_ = re.findall(r'type=(\d+)', href)[0]
    url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='
    response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()
    filtered_total = response['filtered_total']
    self.parse(type_, filtered_total, j, i)

四、解析并存储数据

Douban 类中parse 方法则承担着解析获取到的具体电影数据并存储到数据库的重要任务。

1. 请求数据

它会根据传入的电影类型编号 type_ 和总数 filtered_total,构建合适的请求参数,向 https://movie.douban.com/j/chart/top_list 发送请求,获取到该类型下的一系列电影详细信息,这些信息是以 JSON 格式返回的哦。

python 复制代码
url = "https://movie.douban.com/j/chart/top_list"
params = {
    "type": type_,
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": filtered_total,
}
response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()

2. 数据处理与存储

对于每一部电影的信息,它提取出诸如电影标题、演员数量、演员名单、评分、地区、上映日期、电影类型、投票数等重要信息。并且对上映日期进行了一些格式上的处理,然后将这些数据按照一定的格式准备好,尝试插入到名为 movie_info 的数据库表中。如果在插入过程中出现了 MySQL 错误,它会打印出错误信息哦。

python 复制代码
for item in response:
    title = item['title']
    actor_count = item['actor_count']
    actors = item['actors']
    score = item['rating'][0]
    regions = item['regions'][0]
    release_date = item['release_date']
    types = item['types']
    vote_count = item['vote_count']
    // 数据处理省略部分代码
    try:
        sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"
        self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))
        self.db.commit()
    except pymysql.MySQLError as e:
        print(f"An error occurred: {e}")

完整代码:

python 复制代码
# -*- coding:utf-8 -*-
import re

import pymysql
import requests
from lxml import etree


class Douban(object):
    def __init__(self):
        self.headers = {
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "cache-control": "no-cache",
    "pragma": "no-cache",
    "priority": "u=0, i",
    "referer": "https://cn.bing.com/",
    "sec-ch-ua": "\"Microsoft Edge\";v=\"131\", \"Chromium\";v=\"131\", \"Not_A Brand\";v=\"24\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "document",
    "sec-fetch-mode": "navigate",
    "sec-fetch-site": "cross-site",
    "sec-fetch-user": "?1",
    "upgrade-insecure-requests": "1",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}
        self.cookies = {'填入你的cookies'}
        self.db = pymysql.Connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='921108',
            db='data'
        )
        self.cursor = self.db.cursor()
    def get_zhonglei(self, j ,i):
        url = "https://movie.douban.com/chart"
        response = requests.get(url, headers=self.headers, cookies=self.cookies).text
        html = etree.HTML(response)
        span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')
        for span in span_list:
            href = span.xpath('./a/@href')[0]
            # text = span.xpath('./a/text()')[0]
            # print(url)
            type_ = re.findall(r'type=(\d+)', href)[0]
            # print(type_)
            url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='
            response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()
            filtered_total = response['filtered_total']
            print(type_, filtered_total)
            self.parse(type_, filtered_total, j, i)
    def parse(self, type_, filtered_total, j, i):
        url = "https://movie.douban.com/j/chart/top_list"
        params = {
            "type": type_,
            "interval_id": "100:90",
            "action": "",
            "start": "0",
            "limit": filtered_total,
        }
        response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()
        for item in response:
            title = item['title']
            actor_count = item['actor_count']
            actors = item['actors']
            score = item['rating'][0]
            regions = item['regions'][0]
            release_date = item['release_date']
            types = item['types']
            vote_count = item['vote_count']
            j += 1
            # i.append([j, title, actor_count, actors, score, regions, release_date, types, vote_count])
            # print(j, title, actor_count, actors, score, regions, release_date, types, vote_count)
            if len(release_date) == 4:
                movie_date = f"{release_date}-01-01"
            else:
                movie_date = release_date
            movie_name = title
            movie_type = str(types)
            movie_country = regions
            actor_name = str(actors)
            score_all = vote_count
            print(j, movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all)
            # 插入movies表
            try:
                sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"
                self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))
                self.db.commit()
            except pymysql.MySQLError as e:
                print(f"An error occurred: {e}")
                # self.db.rollback()
                pass
if __name__ == '__main__':
    j = 0
    i = []
    spider = Douban()
    spider.get_zhonglei(j, i)

通过这段代码,我们就可以实现从豆瓣电影平台获取丰富的电影数据,并将它们有序地存储到我们自己的数据库中啦,是不是很有意思呢?当然,在实际应用中,我们还可以根据自己的需求对代码进行进一步的优化和扩展哦。

相关推荐
B站计算机毕业设计超人几秒前
计算机毕业设计Python+卷积神经网络CNN交通标志识别 机器学习 深度学习 爬虫 数据可视化 人工智能 模型训练
图像处理·python·深度学习·机器学习·cnn·tensorflow·卷积神经网络
盖盖衍上6 分钟前
5.1 MySQL 锁机制
数据库·mysql·oracle
cllsse13 分钟前
python控制鼠标,键盘,adb
开发语言·python·计算机外设
AI原吾14 分钟前
探索Python WebSocket新境界:picows库揭秘
开发语言·python·websocket·picows
大佬,救命!!!21 分钟前
fiddler抓包工具与requests库构建自动化报告
笔记·python·测试工具·fiddler·自动化·requests·开源推荐
null or notnull38 分钟前
将jar包导入maven
ide·python·pycharm
乘风对月歌1 小时前
Gradio入门学习笔记
数据库·笔记·学习
Yanbin_Q1 小时前
使用 Redis 作为消息队列 - Redis Stream
数据库·redis·缓存
bigbig猩猩1 小时前
Spring Boot整合Redis Stack构建本地向量数据库相似性查询
数据库·spring boot·redis
ኈ ቼ ዽ1 小时前
python简单算法
开发语言·python·算法