【爬虫专区】批量下载PDF (无反爬)

天命:只要没反爬,一切都简单

这次爬取的是绿盟的威胁情报的PDF

先看一下结构,很明显就是一个for循环渲染

burp抓包会发现第二次接口请求

接口请求一次就能获取到了所有的数据

然后一个循环批量下载数据即可,其实没啥难度的

python 复制代码
import requests,os

res = requests.get("https://nti.nsfocus.com/api/v2/report/notie/?page=1&size=200&order=reported")
data_dict = res.json() # 提取json格式
当前相对路径 = os.getcwd()  # 获取绝对路径,每个人电脑不一样,所以预算是相对路径
os.mkdir("PDF") # 在当前文件夹下,创建一个PDF文件夹

# 提取data字段
data = data_dict['data']
for 数据 in data:
    日期 = 数据['created']
    日期 = 日期.split("T")[0]
    标题 = 数据['title']
    文件名 = 数据['children'][0]['file_name']
    url = "https://nti.nsfocus.com/api/v2/report/pdf/?file="+ 文件名 
    
    最终文件名 = 日期+标题+文件名
    response = requests.get(url, stream=True)  # 开始下载文件
    f = open(f"{当前相对路径}\\PDF\\{最终文件名}","wb")
    for 文件流 in response.iter_content(chunk_size=1024):  # 应该是提取每一页
        f.write(文件流)  # 把每一页写入PDF中
    print("文件已下载")
相关推荐
我的xiaodoujiao27 分钟前
API 接口自动化测试详细图文教程学习系列15--项目实战演练2
python·学习·测试工具·pytest
多思考少编码1 小时前
PAT甲级真题1001 - 1005题详细题解(C++)(个人题解)
c++·python·最短路·pat·算法竞赛
ZhengEnCi2 小时前
M5-markconv自定义CSS样式指南 📝
前端·css·python
ZhengEnCi2 小时前
M4-更新日志v0.1.3-Mermaid图表支持 📝
python
其实秋天的枫2 小时前
2026年新高考英语大纲词汇表3500个电子版PDF(含正序版、乱序版和默写版)
经验分享·pdf
hsjcjh2 小时前
多模态长文本协同:用Gemini 3.1 Pro镜像官网破解复杂办公场景的效率困局(国内实测方案)
python
凯瑟琳.奥古斯特2 小时前
SQLAlchemy核心功能解析
开发语言·python·flask
lijfrank2 小时前
MacOS 下 VS Code + LaTeX + Skim 双向同步配置
vscode·macos·pdf·latex·mactex
卷Java2 小时前
GPTQ vs AWQ vs GGUF:模型量化工具横向测评
开发语言·windows·python
程序员的记录3 小时前
AI 实战 - 文档处理(pdf/work/md/txt...)
pdf