python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
2603_954138396 小时前
PDF 转 Word 工具深度评测:从参数解析到实战避坑
pdf·word
知南x11 小时前
【DPDK例程学习】(4) l2fwd
学习·word
江畔柳前堤19 小时前
github实战指南00-命令在哪里执行?
人工智能·线性代数·oracle·数据挖掘·github·word
江畔柳前堤20 小时前
github实战指南05-Fork与开源协作
人工智能·线性代数·oracle·开源·github·word
yivifu1 天前
怎样将Word文档中脚注引用后面的空格轻松删除
word·vba
Sour2 天前
Word 文档翻译后保留格式的检查清单:标题、表格、图片、目录和批注
pdf·word·办公软件·office·文档翻译
qq_422152573 天前
Word 文件太大怎么压缩?2026 年文档瘦身方案对比
开发语言·c#·word
子非衣3 天前
Java使用Aspose进行Word转PDF时异常卡主问题
java·pdf·word
E_ICEBLUE3 天前
将 Excel 表格插入 Word 文档的三种实用方案(Python 自动化)
python·word·excel
俊哥工具3 天前
027免费开源硬盘检测工具,一键查看健康度,杜绝数据丢失
pdf·电脑·word·excel·音视频