python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
jayson.h1 小时前
word宏批量插入.csv格式的附件
windows·word
大卡拉米1 小时前
前端组件库 PDF、word、Excel预览
前端·pdf·word
m5655bj1 天前
使用 C# 设置 Word 段落对齐样式
开发语言·c#·word
TextIn智能文档云平台1 天前
如何将公司内部知识库(Word/PDF)接入大模型?
pdf·word
vfvfb1 天前
docx转jpg word转图片 大批量word文档每页都转图片
word·word转图片·docx转jpg
小小心LOVE1 天前
Vue3 安装和使用 vue-office来实现 Word、Excel 和 PDF 文件的预览
vue.js·word·excel
程途拾光1581 天前
企业组织架构图导出Word 在线编辑免费工具
大数据·论文阅读·人工智能·信息可视化·架构·word·流程图
weixin_416660072 天前
插件分享:将AI生成的数学公式无损导出为Word文档
人工智能·ai·word·论文·数学公式·deepseek
缺点内向2 天前
C# 中如何从 URL 下载 Word 文档:基于 Spire.Doc 的高效解决方案
开发语言·c#·word
dyxal2 天前
论文格式魔法全书:用Word通配符和宏一键完成专业排版
开发语言·word