提取双栏pdf的文字时 输出文件顺序混乱

python 复制代码
from spire.pdf.common import *
from spire.pdf import *
import os

def extract_text_from_pdf(pdf_path, output_dir, is_simple_extraction=True):
    # 创建一个 PDF 文档对象
    pdf = PdfDocument()

    # 加载 PDF 文件
    pdf.LoadFromFile(pdf_path)

    # 确保输出目录存在
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # 创建一个TXT文件来保存提取的文本
    extracted_text_path = os.path.join(output_dir, "extract_text.txt")
    extractedText = open(extracted_text_path, "w", encoding="utf-8")

    # 创建PdfTextExtractOptions 对象
    extractOptions = PdfTextExtractOptions()
    extractOptions.IsSimpleExtraction = is_simple_extraction

    # 遍历文档的每一页
    for i in range(pdf.Pages.Count):
        # 获取页面
        page = pdf.Pages.get_Item(i)
        # 创建PdfTextExtractor 对象
        textExtractor = PdfTextExtractor(page)
        # 从页面提取文本
        text = textExtractor.ExtractText(extractOptions)
        # 将文本写入TXT文件
        extractedText.write(text)

    # 释放资源
    extractedText.close()
    pdf.Close()

# 调用函数,确保路径正确
extract_text_from_pdf('input\\BLIP-2.pdf', "./text", is_simple_extraction=True)

最开始我用的spire pdf 直接提取 发现输出的文本格局会和原来pdf格局一样导致出现文本顺序混乱

python 复制代码
from spire.pdf.common import *
from spire.pdf import *
import os

def extract_text_from_pdf(pdf_path, output_dir, is_simple_extraction=True):
    # 创建一个 PDF 文档对象
    pdf = PdfDocument()

    # 加载 PDF 文件
    pdf.LoadFromFile(pdf_path)

    # 确保输出目录存在
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # 创建一个TXT文件来保存提取的文本
    extracted_text_path = os.path.join(output_dir, "extract_text.txt")
    extractedText = open(extracted_text_path, "w", encoding="utf-8")

    # 创建PdfTextExtractOptions 对象
    extractOptions = PdfTextExtractOptions()
    extractOptions.IsSimpleExtraction = is_simple_extraction

    # 遍历文档的每一页
    for i in range(pdf.Pages.Count):
        # 获取页面
        page = pdf.Pages.get_Item(i)
        # 创建PdfTextExtractor 对象
        textExtractor = PdfTextExtractor(page)
        # 从页面提取文本
        text = textExtractor.ExtractText(extractOptions)
        # 将文本写入TXT文件
        extractedText.write(text)

    # 释放资源
    extractedText.close()
    pdf.Close()

# 调用函数,确保路径正确
extract_text_from_pdf('input\\BLIP-2.pdf', "./text", is_simple_extraction=True)

只要设置PdfTextExtractOptions.IsSimpleExtraction = True 就可以实现按照pdf文字输入顺序提取文字 想法来源:Python 从 PDF 文档中提取文本

相关推荐
丷丩2 分钟前
MapLibre GL JS第21课:绘制GeoJSON点图标、注记
前端·javascript·gis·mapbox·maplibre gl js
LCG元13 分钟前
现代Web应用高可用架构设计与性能调优实战
前端·wpf
丷丩33 分钟前
MapLibre GL JS第20课:更新GeoJSON多边形
前端·javascript·gis·mapbox·maplibre gl js
swipe37 分钟前
DeepAgents middleware 工程实战:把复杂 Agent 的运行时基建交给可组合中间件
前端·面试·llm
前端环境观察室44 分钟前
别让 Agent 浏览器任务无限重试:失败分类、RetryPolicy 与人工复核
前端
喵个咪1 小时前
Headless 后端实践:基于Go的企业级多栈管理系统脚手架
前端·vue.js·react.js
m0_738120721 小时前
渗透测试基础——黑盒测试下的Web漏洞挖掘与利用解析(一)
服务器·前端·网络·安全·php
Larcher2 小时前
JS 变量提升:代码没动,为什么执行顺序就变了?
前端·javascript·前端框架
yingyima2 小时前
MySQL 事件调度器速查:核心语法与实战代码
前端
GISer_Jing2 小时前
Claude Code多Agent架构深度剖析
前端·人工智能·架构·自动化