python爬虫(二) ---- JS动态渲染数据抓取

python爬虫之JS动态渲染数据抓取

一、环境准备

  • 练习地址: https://spa1.scrape.center/page/1

  • requests:发出请求

  • pandas:保存数据到 csv文件

  • 依赖安装命令:

    powershell 复制代码
    pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
    pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

二、爬取思路

  • JS动态渲染的数据是前后端分离的, 直接通过地址无法获取到具体的数据, 需要找到数据返回的api, 然后通过requests请求api拿到数据(一般为json数据), 最后进行解析获取想要的内容
  • 在浏览器开发者模式中, 选中 网络 -> Fetch/XHR, 找到api, 如下图所示:
  • 分析这个json结构, 解析出需要的内容

三、代码示例

python 复制代码
import requests
import pandas as pd


def request(url):
    r = requests.get(url);
    return r.json();


def parseJson(json_data):
    movie_list = []
    results = json_data['results']
    for result in results:
        movie_info = {'name': f"{result['name']} - {result['alias']}",
                      'categories': ','.join(result['categories']),
                      'location': ','.join(result['regions']),
                      'duration': result['minute'],
                      'release_date': result['published_at'],
                      'score': result['score']}
        movie_list.append(movie_info)
    return movie_list


def save(data):
    df = pd.DataFrame(data);
    # 设置表头
    df.columns = ['电影名', '类型', '地域', '时长', '上映时间', '评分'];
    df.to_csv("data_js.csv", index=False, encoding='utf-8-sig');


if __name__ == '__main__':
    # 发出请求
    jsonData = request('https://spa1.scrape.center/api/movie/?limit=10&offset=0')
    print(f'获取jsonData成功..')

    # 解析json
    movie_list = parseJson(jsonData);
    print('解析json成功..')

    # 存储数据
    save(movie_list)
    print('写入文件成功...')

四、结果展示

相关推荐
翻斗包菜1 分钟前
第 03 章 Python 操作 MySQL 数据库实战全解
数据库·python·mysql
xcjbqd013 分钟前
如何修改Oracle服务器默认的日期格式_NLS_DATE_FORMAT全局配置
jvm·数据库·python
white-persist23 分钟前
【vulhub spring CVE-2018-1270】CVE-2018-1270 Spring Messaging 远程命令执行漏洞 完整复现详细分析解释
java·服务器·网络·数据库·后端·python·spring
haierccc24 分钟前
Win7、2008R2、Win10、Win11使用FLASH的方法
前端·javascript·html
We་ct27 分钟前
LeetCode 50. Pow(x, n):从暴力法到快速幂的优化之路
开发语言·前端·javascript·算法·leetcode·typescript·
EnCi Zheng31 分钟前
P2G-Python字符串方法完全指南-split、join、strip、replace的Python编程利器
开发语言·python
潇洒畅想31 分钟前
1.1 从∑到∫:用循环理解求和与累积
java·数据结构·python·算法
Hilaku32 分钟前
卷AI、卷算法、2026 年的前端工程师到底在卷什么?
前端·javascript·面试
有一个好名字33 分钟前
Claude Code 50+命令全解析
python
liliangcsdn43 分钟前
LLM如何与mcp server交互示例
linux·开发语言·python