python爬取pdf文件并保存至本地

问题描述 :python爬取pdf文件并保存至本地,目标网址下有一系列pdf 文件,其中"1.pdf "为想要保存的pdf文件,并且想要保存的pdf是多个pdf,pdf的文件名随着网址中的"1.pdf "变化而变化,规律是依次增加,比如"1.pdf "、"2.pdf "、"3.pdf "...,现在想要通过循环改变网址来保存这些pdf。

python 复制代码
# -*- coding: utf-8 -*-
"""
@author: cattt3
"""

import requests
from bs4 import BeautifulSoup

# 目标网址
url = "http://xxx.cn/Course/TeachingCourse/PsychStats/"

# 循环从1开始,直到找不到PDF文件
i = 1
while True:
    # 构建完整的PDF文件名
    pdf_filename = f"{i}.pdf"

    # 构建完整的PDF URL
    pdf_url = url + pdf_filename

    # 发送HTTP请求
    response = requests.get(pdf_url)

    # 如果请求成功,保存PDF文件
    if response.status_code == 200:
        with open(pdf_filename, "wb") as f:
            f.write(response.content)
        print(f"已保存 {pdf_filename}")
    else:
        # 如果请求失败,停止循环
        break

    # 增加文件名计数器
    i += 1

保存成功:

相关推荐
dhdjjsjs2 分钟前
Day34 PythonStudy
python
一个java开发19 分钟前
Dask 配置文件加载机制说明
大数据·python
bj_zhb26 分钟前
图片的base64表示
python·llm
飞Link28 分钟前
【Django】Django 调用外部 Python 程序的完整指南
后端·python·django·sqlite
周杰伦_Jay35 分钟前
【Java集合与线程池深度解析】底层原理+实战选型+避坑指南(附代码)
java·开发语言·python
一人の梅雨1 小时前
淘宝关键字搜索接口深度解析:从动态策略适配到商业数据重构
python·重构
道19931 小时前
PyTorch 从小白到高级进阶教程[工业级示例](三)
人工智能·pytorch·python
测试人社区-千羽1 小时前
智能测试的终极形态:从自动化到自主化的范式变革
运维·人工智能·python·opencv·测试工具·自动化·开源软件
锐学AI1 小时前
从零开始学MCP(八)- 构建一个MCP server
人工智能·python
木棉知行者1 小时前
PyTorch 核心方法:state_dict ()、parameters () 参数打印与应用
人工智能·pytorch·python