python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
骆驼爱记录12 小时前
Word侧边页码设置全攻略
前端·自动化·word·excel·wps·新人首发
遨游xyz12 小时前
策略模式笔记
开发语言·word·bash
缺点内向1 天前
C#编程实战:如何为Word文档添加背景色或背景图片
开发语言·c#·自动化·word·.net
yuhulkjv3351 天前
ChatGPT和Gemini复制到word格式
chatgpt·word
gc_22991 天前
学习C#调用OpenXml操作word文档的基本用法(21:学习嵌入对象类)
c#·word·openxml·ole
骆驼爱记录1 天前
Word通配符技巧:高效文档处理指南
开发语言·c#·自动化·word·excel·wps·新人首发
骆驼爱记录1 天前
Word表格题注自动设置全攻略
开发语言·c#·自动化·word·excel·wps·新人首发
m5655bj1 天前
通过 C# 设置 Word 文档背景颜色、背景图
开发语言·c#·word
慧都小项2 天前
金融文档的“自主可控”:Python下实现Word到ODT的转换
python·金融·word
小咖自动剪辑3 天前
Base64与图片互转工具增强版:一键编码/解码,支持多格式
人工智能·pdf·word·媒体