python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
东边的小山2 小时前
python 图形界面多个WORD按名字排序合并成一个WORD
python·c#·word
DS随心转小程序18 小时前
ChatGPT和Gemini公式
人工智能·chatgpt·aigc·word·豆包·deepseek·ds随心转
mudtools1 天前
C#中基于Word COM组件的数学公式排版实践
开发语言·c#·word
gc_22991 天前
学习C#调用OpenXml操作word文档的基本用法(18:学习文档页眉类)
c#·word·openxml·页眉·headerpart
meng半颗糖2 天前
vue3+tpescript 点击按钮跳转新页面直接通过链接预览word
前端·vue.js·word
meng半颗糖2 天前
vue3+typeScript 在线预览 excel,word,pdf
typescript·word·excel
缺点内向3 天前
告别“复制粘贴”:用C#和模板高效生成Word文档
开发语言·c#·word
初九之潜龙勿用3 天前
C#实现导出Word图表通用方法之散点图
开发语言·c#·word·.net·office·图表
私人珍藏库3 天前
[吾爱大神原创工具] Word图片批量导出并插入Excel对应单元格
word·excel
a程序小傲3 天前
SpringBoot 秒实现在线 Word 编辑、协同、转化等功能
java·开发语言·spring boot·后端·spring·word·深度优先