python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
secondyoung17 小时前
WPS宏使用:一键批量调整图片与表格格式
经验分享·word·lua·markdown·wps·vb
m5655bj17 小时前
Python 将 Word 文档转换为 Markdown 格式
python·c#·word
天地一沙鸥GW17 小时前
如何将Word文档中已设置好的样式复制/迁移到另一个Word中??
word
qq_2965446518 小时前
永久免费的PDF转word,PDFgear安卓版,mac版,win版都有,word转PDF,PDF转Excel
pdf·word
❀͜͡傀儡师1 天前
docker 部署OnlyOffice实现在线编辑Word文档
docker·容器·word
2501_930707782 天前
使用C#代码统计Word 文档的单词、字符、段落、行数和页数
word
bu_shuo2 天前
使用Zotero在Word中插入参考文献
word·zotero
lifallen2 天前
Word/WPS 制表位分析:如何设置公式居中和编号右对齐
word·wps
spencer_tseng2 天前
Office 2003 Word [header row duplication]
word
CodeCraft Studio3 天前
纯前端文档编辑组件——Spire.WordJS全新发布
前端·javascript·word·office·spire.wordjs·web文档编辑·在线文档编辑器