职业PDF标准 Python 下载器-CSDN

目的

下载技能人才评价网 - 职业技能标准查询系统 - PDF 打包下载

使用文件

a.json

代码解析

python 复制代码
import base64
import requests
import json
import os
import time

# 读取JSON文件
with open('a.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
# 从名为 'a.json' 的文件中读取 JSON 数据,并将其存储在 'data' 变量中

# 创建存储文件的文件夹
output_folder = 'pdf_files'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
# 如果不存在名为 'pdf_files' 的文件夹,则创建该文件夹

# 遍历JSON文件中的每一行
for row in data['rows']:
    code = row['code']
    file_name = row['fileName']
    attachment_path = row['attachment']
    # 从当前 'row' 中提取 'code'、'fileName' 和 'attachment' 的值

    # 发送请求获取PDF文件内容
    headers = {
        "Content-Type": "application/x-www-form-urlencoded",
    }
    resp = requests.post(
        "http://biaozhun.osta.org.cn/api/v1/profession/detail",
        headers=headers,
        data=f"code={code}",
    )
    # 使用 POST 方法向指定的 URL 发送请求,携带 'code' 作为数据参数,以获取对应的 PDF 文件内容
    pdf_data = json.loads(resp.content)
    # 将响应内容解析为 JSON 格式并存储在 'pdf_data' 变量中

    # 检查是否存在 'data' 键
    if 'data' in pdf_data:
        pdf_content = pdf_data['data']
        # 如果 'pdf_data' 包含 'data' 键,则提取其对应的值作为 PDF 文件内容

        # 处理文件名中的特殊字符
        safe_file_name = file_name.encode('utf-8').decode('utf-8')
        file_path = os.path.join(output_folder, safe_file_name)
        # 处理文件名以确保其安全,并构建文件的完整路径

        # 将PDF文件内容保存到指定文件夹中
        with open(file_path, "wb") as f:
            f.write(base64.b64decode(pdf_content))
        # 将 PDF 文件内容解码后写入文件

        print(f"Saved {file_name} to {file_path}")
    else:
        print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
    # 如果 'data' 键不存在,则打印错误信息

    # 每个请求间隔5秒
    time.sleep(5)
    # 在每个请求之间暂停 5 秒
  1. 读取JSON文件
python 复制代码
with open('a.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
  • 作用 : 从 a.json 文件中读取 JSON 数据并存储在 data 变量中。
  • API : json.load() 将文件对象读取为 JSON 格式。
  1. 创建存储文件的文件夹
python 复制代码
output_folder = 'pdf_files'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
  • 作用: 检查是否存在名为 'pdf_files' 文件夹,如果不存在则创建。
  • API :
    • os.path.exists() 检查文件路径是否存在。
    • os.makedirs() 创建目录。
  1. 遍历JSON文件中的每一行
python 复制代码
for row in data['rows']:
    code = row['code']
    file_name = row['fileName']
    attachment_path = row['attachment']
  • 作用 : 遍历 JSON 数据中的每一行,并提取 codefileNameattachment_path
  1. 发送请求获取PDF文件内容
python 复制代码
headers = {
    "Content-Type": "application/x-www-form-urlencoded",
}
resp = requests.post(
    "http://biaozhun.osta.org.cn/api/v1/profession/detail",
    headers=headers,
    data=f"code={code}",
)
pdf_data = json.loads(resp.content)
  • 作用: 发送 POST 请求到指定 URL 以获取 PDF 文件内容。
  • API :
    • requests.post() 发送 HTTP POST 请求。
    • json.loads() 将响应内容解析为 JSON。
  1. 检查是否存在 'data' 键
python 复制代码
if 'data' in pdf_data:
    pdf_content = pdf_data['data']
  • 作用: 检查响应 JSON 中是否存在 'data' 键,如果存在则提取其内容。
  1. 处理文件名中的特殊字符和构建文件路径
python 复制代码
safe_file_name = file_name.encode('utf-8').decode('utf-8')
file_path = os.path.join(output_folder, safe_file_name)
  • 作用: 处理文件名以确保其安全,并构建完整文件路径。
  • API :
    • str.encode() 编码字符串。
    • str.decode() 解码字符串。
    • os.path.join() 拼接路径。
  1. 将PDF文件内容保存到指定文件夹中
python 复制代码
with open(file_path, "wb") as f:
    f.write(base64.b64decode(pdf_content))
  • 作用: 将解码后的 PDF 内容写入文件。
  • API :
    • base64.b64decode() 进行 Base64 解码。
    • open() 打开文件。
    • file.write() 写入文件。
  1. 打印成功或错误信息
python 复制代码
print(f"Saved {file_name} to {file_path}")
else:
    print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
  1. 每个请求间隔5秒
python 复制代码
time.sleep(5)
  • 作用: 在每个请求之间暂停 5 秒。
  • API : time.sleep() 暂停执行。

文件存储

相关推荐
API快乐传递者7 分钟前
Python爬虫获取淘宝详情接口详细解析
开发语言·爬虫·python
公众号Codewar原创作者9 分钟前
R数据分析:工具变量回归的做法和解释,实例解析
开发语言·人工智能·python
FL162386312914 分钟前
python版本的Selenium的下载及chrome环境搭建和简单使用
chrome·python·selenium
巫师不要去魔法部乱说18 分钟前
PyCharm专项训练5 最短路径算法
python·算法·pycharm
Chloe.Zz24 分钟前
Python基础知识回顾
python
骑个小蜗牛29 分钟前
Python 标准库:random——随机数
python
Trouvaille ~38 分钟前
【机器学习】从流动到恒常,无穷中归一:积分的数学诗意
人工智能·python·机器学习·ai·数据分析·matplotlib·微积分
是十一月末1 小时前
Opencv实现图像的腐蚀、膨胀及开、闭运算
人工智能·python·opencv·计算机视觉
云空1 小时前
《探索PyTorch计算机视觉:原理、应用与实践》
人工智能·pytorch·python·深度学习·计算机视觉
dowhileprogramming1 小时前
Python 中的迭代器
linux·数据库·python