python | 简易版: pdf 转换为 word 方法

一、 前言

本文利用python将pdf转换为word方法,需要用到两个第三方模块,分别是:

(1)pdfplumber,用来解析pdf文档,包括pdf的基本信息(作者、创建时间、修改时间...)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。

(2)python-docx,可用来创建、修改word文档(.docx),提供全套的word操作,是较为常用的一个操作word的python库。

以上两者,都可以使用pip命令直接安装,具体命令如下:

python 复制代码
pip install pdfplumber
python 复制代码
pip install python-docx

二、pdf转换为word方法详解

以下代码块,实现提取pdf文件内容,并保存word中。

复制并运行代码,输入需要转换的pdf文档详细路径,回车即可。

python 复制代码
import pdfplumber
from docx import Document


# 新建一个word,用来保存pdf内容
def get_newword(file_path):
    doc = Document()
    doc.save(file_path+r'\res.docx')


# 提取pdf中的所有文本,并保存到word中
def get_con(file_path):
    tem_path = '\\'.join(file_path.split("\\")[:-1])
    # 新建一个word
    get_newword(tem_path)
    doc = Document(tem_path+r'\res.docx')
    with pdfplumber.open(file_path) as pdf:
        for i, page in enumerate(pdf.pages):  # 默认取pdf中所有存在页
            con = page.extract_text()
            doc.add_paragraph(con)
            print('-----------分割线,第%d页-----------' % (int(i) + 1))
            doc.save(tem_path+r'\res.docx')
            print('保存成功第%d页' % (int(i) + 1))


if __name__ == "__main__":
    # 输入文件路径全称,如:E:\pytest\pdfp\data\test.pdf
    print(r'文件路径示例:E:\pytest\pdfp\data\test.pdf')
    file_path = input('请输入需要转化的pdf文件路径:')
    get_con(file_path)

(一)上述代码释义、说明

(1)pdfplumber提取pdf文本内容方法

方法:extract_text(),返回一个字符串,其中包含页面中的所有文本。如果只想提取页面的一部分文本,可以将提取的区域作为参数传递给extract_text() 方法。
需要注意的是: extract_text()方法,提取的是pdf页面中的所有文本内容,包括表格中的文本,但是不会保留表格的格式,只是纯文本内容。且不会保存pdf中的图片。

(2)python-docx基础用法

上述代码主要使用了写入段落的方法:

python 复制代码
add_paragraph(text='',style=None)

text:段落内容,style:设置样式。

三、总结

本文仅是简单实现将pdf文本内容保存到word文档中,对图片和格式未做任何处理。如果仅需要pdf中的文字内容,不想去一一复制,算是一个免费简单的小工具,可供参考。

-end-

相关推荐
财经资讯数据_灵砚智能1 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月3日
大数据·人工智能·python·信息可视化·自然语言处理·灵砚智能
开源量化GO2 分钟前
期货量化价差合约怎么订:天勤 SP 组合代码与订阅注意点
python·区块链
财经资讯数据_灵砚智能2 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月30日
人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
AI玫瑰助手5 分钟前
Python函数:global与nonlocal关键字的使用
开发语言·python·信息可视化
2301_7644413313 分钟前
Factorization Machine(FM模型,因子分解机)
python·算法
绘梨衣54722 分钟前
豆包Seed PDF解析企业落地方法论
大数据·python·pdf
SilentSamsara24 分钟前
消息队列集成:Python + Kafka/RabbitMQ 生产实践
服务器·开发语言·分布式·python·kafka·rabbitmq
zkkkkkkkkkkkkk27 分钟前
python爬虫模拟拖动滑块缺口验证码
爬虫·python·ddddocr
再玩一会儿看代码36 分钟前
Java浅拷贝和深拷贝理解笔记
java·linux·开发语言·笔记·python·学习
love530love43 分钟前
【笔记】ComfyUI 源码部署版更新后一键修复:从手动补丁到自动化工作流
运维·人工智能·windows·笔记·python·自动化·comfyui