python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
pingan87872 天前
试试 docx.js 一键生成 Word 文档,效果很不错
开发语言·前端·javascript·ecmascript·word
封印师请假去地球钓鱼2 天前
问题解决|word中单独一页设置横向
word
小小算法师2 天前
分节符、分页符、分栏符,一次性讲明白
word
封印师请假去地球钓鱼2 天前
问题解决|Word大纲层级混乱?在word导航窗格中调整目录缩进
word
汽车芯猿2 天前
Word频繁崩溃?一步解决 Office 加载项冲突
word
东小黑2 天前
一些论文word格式
word
T0uken2 天前
【Python】docxnote:优雅的 Word 批注
开发语言·python·word
热爱生活的五柒3 天前
word中如何一键修改英文字母数字为新罗马字体Times New Roman
word·西文·times new roman
伟贤AI之路3 天前
Markdown写彩色文字+公式,MD2WD直接转Word,保留所有格式
word·markdown
bu_shuo3 天前
Mathtype的公式在word中显示不全的问题
word·学位论文·mathtype·论文格式