python爬虫(三) ---- 分页抓取数据

python爬虫之分页抓取数据

一、环境准备

  • 练习地址: https://spa1.scrape.center

  • requests:发出请求

  • pandas:保存数据到 csv文件

  • 依赖安装命令:

    yaml 复制代码
    pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple	

二、爬取思路

  • 分析api中返回的分页参数, 获取api中返回的数据总条数, 如下图
  • 总页数为 总条数(count) / 每页条数(limit), 通过math函数取上界
  • 计算request需要的分页参数 limit 和 offset, 请求时传入
  • 循环抓取直至最后一页, 数据量过多, 可以进行分批写入
  • 通过装饰器模式 计算程序总执行时间

三、代码示例

python 复制代码
import requests
import pandas as pd
import math
import time
import os


def request(url, params):
    print(f'url: {url}, params: {params}')
    r = requests.get(url, params=params);
    return r.json();


def parseJson(json_data):
    movie_list = []
    results = json_data['results']
    for result in results:
        movie_info = {'name': f"{result['name']} - {result['alias']}",
                      'categories': ','.join(result['categories']),
                      'location': ','.join(result['regions']),
                      'duration': result['minute'],
                      'release_date': result['published_at'],
                      'score': result['score']}
        movie_list.append(movie_info)
    return movie_list


def save(data):
    df = pd.DataFrame(data);
    # 设置表头
    df.columns = ['电影名', '类型', '地域', '时长', '上映时间', '评分'];
    df.to_csv(file_path, index=False, encoding='utf-8-sig', mode='a', header=not os.path.exists(file_path));
    print(f'写入文件成功...{len(data)}条')


# 计算耗费时间
def cost_time(func):
    def fun(*args, **kwargs):
        t = time.perf_counter()
        result = func(*args, **kwargs)
        print(f'func {func.__name__} cost time:{time.perf_counter() - t:.8f} s')
        return result

    return fun


movie_list = []
file_path = 'data_js.csv'


@cost_time
def js_spider():
    index = 1;
    limit = 10;
    total_page = 1;
    url = 'https://spa1.scrape.center/api/movie';
    while (True):
        offset = (index - 1) * limit;
        params = {
            'limit': limit,
            'offset': offset
        }

        # 发出请求
        jsonData = request(url, params)

        # 解析json
        movie_list_page = parseJson(jsonData)
        movie_list.extend(movie_list_page)

        # 分批写入文件
        if len(movie_list) >= 50:
            save(movie_list)
            movie_list.clear()

        # 获取总页数, 网址最后一页数据有问题, 所以取下界
        if index == 1:
            total_page = math.floor(jsonData['count'] / limit);
        elif index == total_page:
            break

        index += 1
        time.sleep(0.2)

    # 存储剩余的数据
    if len(movie_list) > 0:
        save(movie_list)


if __name__ == '__main__':
    js_spider()

四、结果展示


相关推荐
网上邻居YY几秒前
深度学习DL 之 安装PyTorch·GPU版、CUDA(本人Anaconda、Python、PyCharm已提前安装好)
pytorch·经验分享·python·深度学习·pycharm·学习方法
AI、少年郎2 分钟前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
王家视频教程图书馆4 分钟前
rust 写gui 程序 最流行的是哪个
开发语言·后端·rust
枫叶林FYL5 分钟前
【Python高级工程与架构实战】项目四 现代ETL编排平台:Airflow + dbt + Snowflake 企业级数据管道架构与实现
人工智能·python·架构·etl
源码之屋6 分钟前
计算机毕业设计:Python天气数据采集与可视化分析平台 Django框架 线性回归 数据分析 大数据 机器学习 大模型 气象数据(建议收藏)✅
人工智能·python·深度学习·算法·django·线性回归·课程设计
Wadli7 分钟前
Oncall Agent项目
开发语言
艾莉丝努力练剑12 分钟前
【QT】Qt常用控件与布局管理深度解析:从原理到实践的架构思考
linux·运维·服务器·开发语言·网络·qt·架构
捧月华如12 分钟前
React vs Vue vs Angular:三大前端框架深度对比
python·github
AI_Claude_code13 分钟前
安全与合规核心:匿名化、日志策略与法律风险规避
网络·爬虫·python·tcp/ip·安全·http·网络爬虫