python使用pdfplumber工具包加载pdf格式数据

说在前面

大问题,对于两栏pdf数据,我这边提取出来的数据发现它很离谱。

复制代码
它居然直接忽略了两栏特性,直接将第1栏的句子拼接上了第2栏的句子

解决方法:pypdf2尝试后可以正确识别两栏数据,非常棒。

示例

pdfplumber代码

python 复制代码
# 使用pdfplumber读取文件pdf_path = "./data/shakespeare.pdf"的第133页到1781页的数据,
# 并每200个words组成一个样本数据,每个样本数据单独一行,把所有分割的数据保存到txt文本中,和csv文件格式。
# 两种格式都要保存,csv有两列,第1列是id编号,第2列是每200个words数据。
# 问题:它对于两栏pdf数据不友好,它居然直接忽略的两栏,直接将第1栏的句子拼接上了第2栏的句子,很离谱,

import pdfplumber
import csv
from tqdm import tqdm

# PDF 文件路径
pdf_path = "./data/shakespeare.pdf"

# 输出文件路径
output_txt_path = "./data/shakespeare_samples.txt"
output_csv_path = "./data/shakespeare_samples.csv"


# 提取指定页码范围内的文本
def extract_text_from_pdf(pdf_path, start_page, end_page):
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page_num in tqdm(range(start_page - 1, end_page), desc="提取指定页码范围内的文本"):  # 页码从0开始
            text += pdf.pages[page_num].extract_text() + " "
    return text


# 分割文本为每200个单词一个样本
def split_text_into_samples(text, words_per_sample=200):
    words = text.split()
    samples = [" ".join(words[i:i + words_per_sample]) for i in tqdm(range(0, len(words), words_per_sample), desc="分割文本为每200个单词一个样本")]
    return samples


# 保存样本数据到TXT文件
def save_samples_to_txt(samples, output_path):
    with open(output_path, "w", encoding="utf-8") as txt_file:
        for sample in tqdm(samples, desc="保存样本数据到TXT文件"):
            txt_file.write(sample + "\n")


# 保存样本数据到CSV文件
def save_samples_to_csv(samples, output_path):
    with open(output_path, "w", newline="", encoding="utf-8") as csv_file:
        writer = csv.writer(csv_file)
        writer.writerow(["id", "text"])  # 写入表头
        for idx, sample in tqdm(enumerate(samples), desc="保存样本数据到CSV文件"):
            writer.writerow([idx + 1, sample])


# 主流程
if __name__ == "__main__":
    # 提取文本
    start_page = 134
    # end_page = 1782
    end_page = 140

    extracted_text = extract_text_from_pdf(pdf_path, start_page, end_page)

    # 分割为样本
    samples = split_text_into_samples(extracted_text, words_per_sample=200)

    # 保存到文件
    save_samples_to_txt(samples, output_txt_path)
    save_samples_to_csv(samples, output_csv_path)

    print(f"样本数据已保存到:\nTXT文件: {output_txt_path}\nCSV文件: {output_csv_path}")
相关推荐
--fancy3 小时前
股票预测情感分析研究案例分析
python
shughui3 小时前
PyCharm 完整教程(旧版本卸载+旧/新版本下载安装+基础使用,2026最新版附安装包)
ide·python·pycharm
AI机器学习算法3 小时前
深度学习模型演进:6个里程碑式CNN架构
人工智能·深度学习·cnn·大模型·ai学习路线
Ztopcloud极拓云视角3 小时前
从 OpenRouter 数据看中美 AI 调用量反转:统计口径、模型路由与多云应对方案
人工智能·阿里云·大模型·token·中美ai
AI医影跨模态组学3 小时前
如何将深度学习MTSR与膀胱癌ITGB8/TGF-β/WNT机制建立关联,并进一步解释其与患者预后及肿瘤侵袭、免疫抑制的生物学联系
人工智能·深度学习·论文·医学影像
小糖学代码4 小时前
LLM系列:1.python入门:15.JSON 数据处理与操作
开发语言·python·json·aigc
yejqvow124 小时前
CSS如何控制placeholder文字的颜色_使用--placeholder伪元素
jvm·数据库·python
搬砖的前端4 小时前
AI编辑器开源主模型搭配本地模型辅助对标GPT5.2/GPT5.4/Claude4.6(前端开发专属)
人工智能·开源·claude·mcp·trae·qwen3.6·ops4.6
m0_743623924 小时前
HTML怎么创建多语言切换器_HTML语言选择下拉结构【指南】
jvm·数据库·python
pele4 小时前
Angular 表单中基于下拉选择动态启用字段必填校验的完整实现
jvm·数据库·python