在线浏览“秀人网合集”的新思路:30 行 Python 把封面图链接秒变本地可点图库

用 30 行 Python 把秀人网公开合集"搬"进本地数据库


"秀人网"近日上线的新主题合集页采用前端渲染,数据通过 /api/v2/theme/list 接口一次性返回 JSON,无需模拟点击"加载更多"。接口无登录限制,但带 5 秒滑动窗口的 IP 频次校验:单 IP >30 次/分即返回 429。本文示范如何遵守 robots 协议、放缓速率,仅采集"公开可见"字段,并给出断点续抓、User-Agent 随机化、异常重试等常用技巧。

核心思路三步走:

分析列表接口:在浏览器 DevTools 里筛选 XHR,发现真实请求 URL 形如

https://www.xiuren.net/api/v2/theme/list?page={page}\&size=20,返回体含 data.total 与 data.list。

解析单条记录:字段 title、author、coverUrl 即为我们需要的元数据,无需再进详情页。

限速+重试:用 tenacity 的 @retry(stop=stop_after_attempt(3)) 装饰器,遇到 429 自动退避 10 秒;全局速率 time.sleep(random.uniform(1, 2)),确保平均 <30 次/分。

运行环境:Python≥3.7,依赖如下

pip install requests pandas tenacity fake-useragent

代码(文件 save_xiuren_meta.py):

python 复制代码
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
抓取秀人网公开主题合集元信息,仅采集 title/author/coverUrl 三字段。
仅供学习,请遵守平台 robots.txt 与相关法律法规。
"""
import csv, time, random, requests
from tenacity import retry, stop_after_attempt, wait_fixed
from fake_useragent import UserAgent

BASE_URL = "https://www.xiuren.net/api/v2/theme/list"
CSV_FILE = "xiuren_meta.csv"
PAGE_SIZE = 20
MAX_PAGE = 50          # 按需调整,0 表示抓全量
SLEEP_RANGE = (1, 2)   # 秒,随机休眠

ua = UserAgent()
session = requests.Session()
session.headers.update({"Referer": "https://www.xiuren.net/"})

@retry(stop=stop_after_attempt(3), wait=wait_fixed(10))
def fetch_one_page(page: int):
    session.headers.update({"User-Agent": ua.random})
    params = {"page": page, "size": PAGE_SIZE}
    resp = session.get(BASE_URL, params=params, timeout=10)
    if resp.status_code == 429:
        raise Exception("Rate limited")
    resp.raise_for_status()
    return resp.json()

def main():
    writer = None
    for p in range(1, MAX_PAGE + 1):
        print(f"[+] 正在抓取第 {p} 页 ...")
        js = fetch_one_page(p)
        rows = [
            {"title": item["title"], "author": item["author"], "coverUrl": item["coverUrl"]}
            for item in js["data"]["list"]
        ]
        if not writer:
            writer = csv.DictWriter(open(CSV_FILE, "w", newline="", encoding="utf-8"),
                                    fieldnames=["title", "author", "coverUrl"])
            writer.writeheader()
        writer.writerows(rows)
        if js["data"]["total"] <= p * PAGE_SIZE:
            break
        time.sleep(random.uniform(*SLEEP_RANGE))
    print(f"[√] 抓取完成,已写入 {CSV_FILE}")

if __name__ == "__main__":
    main()

运行后同级目录生成 xiuren_meta.csv,可导入 Excel 或数据库二次分析。若需增量更新,可把 CSV_FILE 改为 SQLite,并在写入前按 title 做唯一索引去重。

再次提醒:

仅抓取"公开可见"字段,不绕过登录、不破解加密参数;

速率温和,不干扰站点正常服务;

数据勿商用,尊重原作者版权。

祝各位读者调试顺利,也欢迎把改进方案提交到开源社区,共同维护良好的技术交流氛围。

相关推荐
兵慌码乱11 小时前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei14 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi0020 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn21 小时前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
金銀銅鐵2 天前
[Python] 从《千字文》中随机挑选汉字
后端·python
cup112 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi002 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
金銀銅鐵2 天前
用 Python 实现 Take-Away 游戏
python·游戏