Python实用工具:pdf转doc

该工具只能使用在英文目录下,且无法转换出图片,以及文本特殊格式。

下载依赖项

bash 复制代码
pip install PyPDF2

升级依赖项

bash 复制代码
pip install PyPDF2 --upgrade

查看库版本

bash 复制代码
python -c "import PyPDF2; print(PyPDF2.__version__)"

下载第二个依赖项

bash 复制代码
pip install python-docx

给权限

bash 复制代码
pip install python-docx --user

验证

bash 复制代码
python -c "from docx import Document; print('python-docx 安装成功')"
python 复制代码
# -*- coding: utf-8 -*-
# pdf_to_word_pypdf2_python_docx.py
import PyPDF2
from docx import Document

def pdf_to_word_pypdf2_python_docx(pdf_path, word_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)  # 更新为PdfReader
        document = Document()

        for page in pdf_reader.pages:  # 使用pages属性直接遍历
            text = page.extract_text()  # 更新方法名为extract_text()
            document.add_paragraph(text)

        document.save(word_path)

# 使用示例
pdf_to_word_pypdf2_python_docx('123456.pdf', 'output.docx')
相关推荐
kjkdd5 分钟前
6.1 核心组件(Agent)
python·ai·语言模型·langchain·ai编程
小镇敲码人11 分钟前
剖析CANN框架中Samples仓库:从示例到实战的AI开发指南
c++·人工智能·python·华为·acl·cann
萧鼎13 分钟前
Python 包管理的“超音速”革命:全面上手 uv 工具链
开发语言·python·uv
alvin_20051 小时前
python之OpenGL应用(二)Hello Triangle
python·opengl
铁蛋AI编程实战1 小时前
通义千问 3.5 Turbo GGUF 量化版本地部署教程:4G 显存即可运行,数据永不泄露
java·人工智能·python
jiang_changsheng1 小时前
RTX 2080 Ti魔改22GB显卡的最优解ComfyUI教程
python·comfyui
0思必得02 小时前
[Web自动化] Selenium处理滚动条
前端·爬虫·python·selenium·自动化
沈浩(种子思维作者)2 小时前
系统要活起来就必须开放包容去中心化
人工智能·python·flask·量子计算
2301_790300962 小时前
Python数据库操作:SQLAlchemy ORM指南
jvm·数据库·python
m0_736919102 小时前
用Pandas处理时间序列数据(Time Series)
jvm·数据库·python