批量删除pdf文件最后一页

mit ocw的讲义最后一页经常有版权标识

用这个程序可以批量删除

利用pyPDF2库

import os

from PyPDF2 import PdfReader, PdfWriter

def remove_last_page(pdf_path):

读取PDF文件

reader = PdfReader(pdf_path)

复制代码
# 如果PDF页数少于2页,直接跳过
if len(reader.pages) < 2:
    return

# 创建一个新的PDF写入对象
writer = PdfWriter()

# 将前面的所有页加入新的PDF
for i in range(len(reader.pages) - 1):
    writer.add_page(reader.pages[i])

# 覆盖原PDF文件
with open(pdf_path, 'wb') as output_pdf:
    writer.write(output_pdf)

def batch_process_pdf(folder_path):

批量处理文件夹中的PDF文件

for file_name in os.listdir(folder_path):

if file_name.endswith(".pdf"):

pdf_path = os.path.join(folder_path, file_name)

remove_last_page(pdf_path)

print(f"Processed: {file_name}")

替换为你的文件夹路径

#folder_path = 'E:\analysis\18.100c-fall-2012\static_resources'

batch_process_pdf(folder_path)

相关推荐
wenxin77wx14 小时前
3步部署OlmOCR:一行命令将PDF转为LLM训练数据
pdf·- olmocr
ShiXZ21316 小时前
PDF-OCR文件识别篇(七):数据入库
java·pdf·json·ocr·springboot
hong781721 小时前
西门子触摸屏PROSAVE传输PDF组件没有选项
pdf·触摸屏·西门子
王莎莎-MinerU1 天前
当 RealDocBench 开始追问字段级问答,MinerU 为什么更适合做知识库与科研 Agent 的文档验收层
大数据·人工智能·算法·pdf·ocr
weixin_3975740918 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
Metaphor69218 天前
使用 Python 将 PDF 转换为 HTML
python·pdf·html
2601_9618451518 天前
粉笔行测5000题电子版|pdf|解析
pdf·新媒体运营·github·个人开发·内容运营·规格说明书·极限编程
Sour18 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
狂奔solar18 天前
OpenDataLoader-PDF 做 PDF 解析可视化调试器
pdf·rag 预处理
chatexcel18 天前
ChatExcel Max使用教程:图片、PDF、网页与复杂Excel的一站式数据分析
数据分析·pdf·excel