pdf转TXT文本,适用于文字型PDF;扫描版PDF需要使用OCR(光学字符识别)技术来识别图中的文字

我用夸克网盘给你分享了「pdf转TXT文本」,点击链接或复制整段内容,打开「夸克APP」即可获

链接:https://pan.quark.cn/s/3440cb35f485

python 复制代码
import os
import tkinter as tk
from tkinter import filedialog
from pypdf import PdfReader


def select_pdf_file():
    """弹出窗口选择单个PDF文件"""
    root = tk.Tk()
    root.withdraw()  # 隐藏主窗口

    file_path = filedialog.askopenfilename(
        title="请选择要转换的PDF文件",
        filetypes=[("PDF文件", "*.pdf"), ("所有文件", "*.*")]
    )
    return file_path if file_path else None


def select_output_path(default_name="output.txt"):
    """弹出窗口选择保存路径"""
    root = tk.Tk()
    root.withdraw()  # 隐藏主窗口

    output_path = filedialog.asksaveasfilename(
        title="保存文本文件",
        defaultextension=".txt",
        initialfile=default_name,
        filetypes=[("文本文件", "*.txt"), ("所有文件", "*.*")]
    )
    return output_path if output_path else None


def extract_text_standalone():
    """主流程:选择文件 -> 提取 -> 保存"""
    # 1. 选择文件
    pdf_path = select_pdf_file()
    if not pdf_path:
        print("未选择文件,程序退出。")
        return

    try:
        reader = PdfReader(pdf_path)
        text = ""

        print(f"\n正在提取:{os.path.basename(pdf_path)}")
        print(f"总页数:{len(reader.pages)},请稍候...")

        # 2. 逐页提取文本
        for page_num, page in enumerate(reader.pages, 1):
            page_text = page.extract_text()
            if page_text:
                # 添加分页标记,方便查看
                text += f"\n--- 第 {page_num} 页 ---\n"
                text += page_text

        # 3. 选择保存位置
        default_filename = os.path.splitext(os.path.basename(pdf_path))[0] + "_提取文本.txt"
        output_path = select_output_path(default_name=default_filename)

        if output_path:
            # 4. 写入文件 (使用utf-8防止中文乱码)
            with open(output_path, "w", encoding="utf-8") as f:
                f.write(text)
            print(f"成功!文本已保存至:\n   {output_path}")
        else:
            print("取消了保存操作。")

    except Exception as e:
        print(f"发生错误:{str(e)}")


# --- 程序入口 ---
if __name__ == "__main__":
#    extract_text_standalone()

附录

🛠️ 第一步:安装打包工具

在打包之前,你需要先安装 pyinstaller 库。

打开命令行(CMD)或终端,输入以下命令并回车:

复制代码
pip install pyinstaller

🚀 第二步:执行打包命令

假设你的 Python 脚本文件名为 pdf_converter.py

推荐命令(单文件模式)

这个命令会生成一个单独的 .exe 文件,方便你复制给别人使用。

复制代码
pyinstaller --onefile pdf_converter.py
进阶命令(自定义名称 + 隐藏控制台)

如果你希望生成的文件叫 PDF转文本工具.exe,并且不显示黑色的命令行窗口(因为你用了 GUI 弹窗):

复制代码
pyinstaller --onefile --name=PDF转文本工具 --windowed pdf_converter.py

⚠️ 注意:

如果你使用了 --windowed (或 -w) 参数,程序运行时不会显示黑色的控制台窗口

  • 优点:界面更清爽,像个正规软件。
  • 缺点 :你的代码中 print("✅ 成功...") 的提示信息你看不到。如果程序出错,你也看不到报错信息,程序会直接闪退。
  • 建议 :开发测试阶段先不要--windowed,等确认程序完美运行后,再打包发布版时加上它。

📂 第三步:找到生成的文件

打包完成后,命令行会显示 SUCCESS。此时你的文件夹里会多出几个目录:

  • dist 目录 (重点):这里面就是生成的 .exe 文件。你把这个文件复制出来,发给任何一台电脑都能直接双击运行。
  • build 目录:这是打包过程中的临时文件,打包完成后可以删除。
  • pdf_converter.spec 文件:这是 PyInstaller 的配置文件,一般不需要动。

💡 常见问题与技巧

  1. 杀毒软件误报

    打包出来的 .exe 文件有时会被 Windows Defender 或其他杀毒软件误报为病毒。这是因为 PyInstaller 的引导加载程序特征被某些杀毒软件标记了。如果是自己写的代码,选择"允许"或添加信任即可。

  2. 文件体积较大

    即使你的代码只有几行,生成的 .exe 文件也可能有 30MB-50MB 左右。这是正常的,因为它把 Python 解释器和 pypdf 库都打包进去了,相当于带了一个迷你 Python 环境。

  3. 如果代码里有图标

    如果你想给 exe 换个图标(需要 .ico 格式),可以加上 --icon 参数:

    复制代码
    pyinstaller --onefile --icon=my_icon.ico pdf_converter.py
相关推荐
llz_1127 小时前
web-第二次课后作业
前端·后端·web
上海云盾第一敬业销售7 小时前
服务器遭受攻击的应对策略及快速防护实践
运维·服务器·web安全·ddos
vipbic12 小时前
别再把“做个H5”挂嘴边了:这个词,官方压根就没有定义过
前端
AI人工智能+电脑小能手13 小时前
【大白话说Java面试题 第87题】【Mysql篇】第17题:分布式事务的实现原理?
java·数据库·分布式·mysql·面试
yyuuuzz13 小时前
独立站的技术基础与常见运维问题
大数据·运维·服务器·网络·数据库·aws
来杯@Java14 小时前
图书管理系统(基于springboot+vue前后端分离的项目)计算机毕业设计java
java·spring boot·spring·vue·毕业设计·mybatis·课程设计
ZC跨境爬虫14 小时前
跟着 MDN 学CSS day_39:(Flexbox 弹性盒子核心机制)
前端·css·ui·html·tensorflow
小陈同学呦14 小时前
前端如何处理订单状态导航的数据竞态问题
前端·javascript
卷毛的技术笔记14 小时前
告别硬编码!Spring AI Alibaba 实现 AI Agent 智能工具调用(Tool Calling)
java·人工智能·后端·python·spring·ai编程
编程大师哥14 小时前
匿名函数 lambda + 高阶函数
java·python·算法