Python实用工具:pdf转doc

该工具只能使用在英文目录下,且无法转换出图片,以及文本特殊格式。

下载依赖项

bash 复制代码
pip install PyPDF2

升级依赖项

bash 复制代码
pip install PyPDF2 --upgrade

查看库版本

bash 复制代码
python -c "import PyPDF2; print(PyPDF2.__version__)"

下载第二个依赖项

bash 复制代码
pip install python-docx

给权限

bash 复制代码
pip install python-docx --user

验证

bash 复制代码
python -c "from docx import Document; print('python-docx 安装成功')"
python 复制代码
# -*- coding: utf-8 -*-
# pdf_to_word_pypdf2_python_docx.py
import PyPDF2
from docx import Document

def pdf_to_word_pypdf2_python_docx(pdf_path, word_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)  # 更新为PdfReader
        document = Document()

        for page in pdf_reader.pages:  # 使用pages属性直接遍历
            text = page.extract_text()  # 更新方法名为extract_text()
            document.add_paragraph(text)

        document.save(word_path)

# 使用示例
pdf_to_word_pypdf2_python_docx('123456.pdf', 'output.docx')
相关推荐
zone77393 小时前
001:简单 RAG 入门
后端·python·面试
F_Quant3 小时前
🚀 Python打包踩坑指南:彻底解决 Nuitka --onefile 配置文件丢失与重启报错问题
python·操作系统
允许部分打工人先富起来4 小时前
在node项目中执行python脚本
前端·python·node.js
IVEN_4 小时前
Python OpenCV: RGB三色识别的最佳工程实践
python·opencv
haosend5 小时前
AI时代,传统网络运维人员的转型指南
python·数据网络·网络自动化
曲幽5 小时前
不止于JWT:用FastAPI的Depends实现细粒度权限控制
python·fastapi·web·jwt·rbac·permission·depends·abac
IVEN_1 天前
只会Python皮毛?深入理解这几点,轻松进阶全栈开发
python·全栈
Ray Liang1 天前
用六边形架构与整洁架构对比是伪命题?
java·python·c#·架构设计
AI攻城狮1 天前
如何给 AI Agent 做"断舍离":OpenClaw Session 自动清理实践
python
千寻girling1 天前
一份不可多得的 《 Python 》语言教程
人工智能·后端·python