5.2 Ajax 数据爬取实战

目录

[1. 实战内容](#1. 实战内容)

[2、Ajax 分析](#2、Ajax 分析)

3、爬取内容

[4、存入MySQL 数据库](#4、存入MySQL 数据库)

[4.1 创建相关表](#4.1 创建相关表)

[4.2 数据插入表中](#4.2 数据插入表中)

5、总代码与结果


1. 实战内容

爬取Scrape | Movie的所有电影详情页的电影名、类别、时长、上映地及时间、简介、评分,并将这些内容存入MySQL数据库中。

2、Ajax 分析

根据上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客,找到详情页的数据包,如下:

根据数据包,会发现其中 Response中有我们想要的内容。查看其及其他页的Request URL,发现其规律,只需改变后面的数字,构造链接,即可一一爬取信息。

Response中想要的内容如下(为Response部分内容截图):

等等,不难发现此内容以字典的形式呈现在我们眼前。

3、爬取内容

所以用 eval() 将字符串形式的 content 转换为字典,方便提取信息。将提取的信息汇合成字典,便于传递、存入MySQL数据库。

在爬取的过程中,会发现一些电影数据不完整,会造成错误使得程序崩溃,所以使用try...except...去避免。

python 复制代码
import requests


def crawler(url):
    response = requests.get(url)
    content = response.text
    content = eval(content)

    name = content['name']
    alias = content['alias']    # 外文名
    categories = content['categories']
    cate = ','.join(categories)    # 电影种类
    regions = content['regions']
    region = ','.join(regions)    # 地点
    publish_time = content['published_at']
    score = content['score']
    minute = content['minute']    # 时长
    drama = content['drama']
    # print(name, alias, cate, region, publish_time, score, minute, drama)

    movie_dict = {
        'name': name,
        'alias': alias,
        'cate': cate,
        'region': region,
        'publish_time':publish_time,
        'minute': minute,
        'score': score,
        'drama': drama
    }
    print(movie_dict)



if __name__ == '__main__':

    last = 100
    for i in range(1, last+1):
        url = f'https://spa1.scrape.center/api/movie/{i}/'
        try:
            crawler(url)
        except NameError:
            print(f'链接{url}数据不完整')

以第一个详情页为例子展现输出结果:

之后,我们可以根据结果存入MySQL数据库。

4、存入MySQL 数据库

4.1 创建相关表

要存入数据库前,要根据字典的键创建相关表,之后才能存入表中。创建表可以在爬取数据之前创建,不需要每次循环创建一次。

相关代码见 create_table() 函数,**mysql_local 用法见上一篇文章5.1 Ajax数据爬取之初介绍-CSDN博客

python 复制代码
def creat_table():
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,'
           'name VARCHAR(100) ,'
           'alias VARCHAR(100) ,'
           'cate VARCHAR(100) ,'
           'region VARCHAR(100) ,'
           'publish_time DATE,'
           'minute VARCHAR(100),'
           'score VARCHAR(100),'
           'drama TEXT)')    # 文本内容

    cursor.execute(sql)
    conn.close()

sql语句创建表具体可见4.4 MySQL存储-CSDN博客

4.2 数据插入表中

使用 insert_movie() 函数插入字典数据,具体解析可见4.4 MySQL存储-CSDN博客

python 复制代码
def insert_movie(movie_dict):
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    keys = ','.join(movie_dict.keys())
    values = ','.join(['%s'] * len(movie_dict))
    sql = f'INSERT INTO movie({keys}) VALUES ({values})'
    # print(sql)
    # print(tuple(movie_dict.values()))
    cursor.execute(sql, tuple(movie_dict.values()))
    conn.commit()
    conn.close()

5、总代码与结果

python 复制代码
import requests
import pymysql
from mysql_info import mysql_local


def creat_table():
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    sql = ('CREATE TABLE IF NOT EXISTS movie(id INT AUTO_INCREMENT PRIMARY KEY,'
           'name VARCHAR(100) ,'
           'alias VARCHAR(100) ,'
           'cate VARCHAR(100) ,'
           'region VARCHAR(100) ,'
           'publish_time DATE,'
           'minute VARCHAR(100),'
           'score VARCHAR(100),'
           'drama TEXT)')

    cursor.execute(sql)
    conn.close()


def insert_movie(movie_dict):
    conn = pymysql.connect(**mysql_local)
    cursor = conn.cursor()
    keys = ','.join(movie_dict.keys())
    values = ','.join(['%s'] * len(movie_dict))
    sql = f'INSERT INTO movie({keys}) VALUES ({values})'
    # print(sql)
    # print(tuple(movie_dict.values()))
    cursor.execute(sql, tuple(movie_dict.values()))
    conn.commit()
    conn.close()


def crawler(url):
    response = requests.get(url)
    content = response.text
    content = eval(content)

    # id = content['id']
    name = content['name']
    alias = content['alias']    # 外文名
    categories = content['categories']
    cate = ','.join(categories)
    regions = content['regions']
    region = ','.join(regions)
    publish_time = content['published_at']
    score = content['score']
    minute = content['minute']
    drama = content['drama']
    # print(name, alias, cate, region, publish_time, score, minute, drama)

    movie_dict = {
        # 'id': id,
        'name': name,
        'alias': alias,
        'cate': cate,
        'region': region,
        'publish_time':publish_time,
        'minute': minute,
        'score': score,
        'drama': drama
    }
    # print(movie_dict)
    insert_movie(movie_dict)


if __name__ == '__main__':
    creat_table()
    last = 100
    for i in range(1, last+1):
        url = f'https://spa1.scrape.center/api/movie/{i}/'
        try:
            crawler(url)
        except NameError:
            print(f'链接{url}数据不完整')

mysql数据库部分内容:

本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢,一起加油吧!

相关推荐
棒棒的皮皮5 分钟前
【OpenCV】Python图像处理之仿射变换
图像处理·python·opencv·计算机视觉
weixin_4462608513 分钟前
FastF1: 轻松获取和分析F1数据的Python包
开发语言·python
千寻技术帮13 分钟前
10382_基于Springboot的高校排课管理系统
mysql·vue·毕设·spingboot·高校排课
我送炭你添花15 分钟前
Pelco KBD300A 模拟器:06.用 PyQt5 实现 1:1 像素级完美复刻 Pelco KBD300A 键盘
python·qt·自动化·运维开发
山土成旧客16 分钟前
【Python学习打卡-Day22】启航Kaggle:从路径管理到独立项目研究的全方位指南
开发语言·python·学习
我命由我1234518 分钟前
Python Flask 开发 - Flask 路径参数类型(string、int、float、path、uuid)
服务器·开发语言·后端·python·flask·学习方法·python3.11
Coder_Oldou28 分钟前
【经验分享】MySQL线上使用经验
数据库·经验分享·mysql
是Yu欸29 分钟前
扫描网站结构的SEO元数据抓取方案
爬虫·seo·亮数据·brightdata
Chen--Xing32 分钟前
LeetCode LCR 119.最长连续序列
c++·python·算法·leetcode·rust
BoBoZz1935 分钟前
ConnectivityFilter数据集中分离的区域或连通分量
python·vtk·图形渲染·图形处理