Python实用工具:pdf转doc

该工具只能使用在英文目录下,且无法转换出图片,以及文本特殊格式。

下载依赖项

bash 复制代码
pip install PyPDF2

升级依赖项

bash 复制代码
pip install PyPDF2 --upgrade

查看库版本

bash 复制代码
python -c "import PyPDF2; print(PyPDF2.__version__)"

下载第二个依赖项

bash 复制代码
pip install python-docx

给权限

bash 复制代码
pip install python-docx --user

验证

bash 复制代码
python -c "from docx import Document; print('python-docx 安装成功')"
python 复制代码
# -*- coding: utf-8 -*-
# pdf_to_word_pypdf2_python_docx.py
import PyPDF2
from docx import Document

def pdf_to_word_pypdf2_python_docx(pdf_path, word_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)  # 更新为PdfReader
        document = Document()

        for page in pdf_reader.pages:  # 使用pages属性直接遍历
            text = page.extract_text()  # 更新方法名为extract_text()
            document.add_paragraph(text)

        document.save(word_path)

# 使用示例
pdf_to_word_pypdf2_python_docx('123456.pdf', 'output.docx')
相关推荐
老毛肚6 小时前
jeecg-boot-base-core 02 day
javascript·python
yaoxin5211237 小时前
434. Java 日期时间 API - Period 基于日期的时间段
java·开发语言·python
岁月宁静8 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
JaydenAI8 小时前
[对比学习LangChain和MAF-07]如何引入人机交互的审批流程
python·ai·langchain·c#·agent·hitl·maf
神奇元创8 小时前
商用级光路加速卡:大模型推理的极速落地方案
python·神经网络·fpga开发·dsp开发
运筹vivo@9 小时前
Python ContextVar 底层机制与内存模型拆解
前端·数据库·python
大白菜和MySQL9 小时前
java应用排查高线程
java·python
嵌入式协会20240729 小时前
(已解决)MinIO python 获取预签名出现forbidden、errornetwork等错误
java·开发语言·python
宸丶一9 小时前
Day 14:任务追踪 - 让 Agent 拥有项目管理能力
开发语言·python