python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
Tmin.1 小时前
Word论文中遇到的
word
智航GIS11 小时前
9.4 Word 自动化
python·自动化·word
深念Y1 天前
学习通下载老师没有开放下载的文档的方法
学习·pdf·word·文档·下载·学习通·开发者模式
开开心心_Every1 天前
提取PPT/Word/Excel图片工具
数据库·微信·pdf·word·powerpoint·excel·语音识别
蜡笔小鑫jolly2 天前
在WORD中插入表格后放图片一直不吻合怎么办?
word
YuQiao03032 天前
华科学位论文——驯服word公式编辑器(不是mathtype的)
编辑器·word
YuQiao03032 天前
华科学位论文——驯服word之 目录
word
重生之光头强下海当程序猿2 天前
word将所选内容超链接为文章其他内容
word
SEO-狼术2 天前
Convert Word Documents to PDF
pdf·word
发际线的忧伤3 天前
Word 的一个显示模式,页眉页脚数据丢失?
word