python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
VBAMatrix15 小时前
新一代邮件合并!按Word模板批量生成个性化文档
word·办公自动化·邮件合并·审计·报告工具·批量生成合同
梦幻通灵1 天前
Word自动对齐答案ABCD选项的实现方案
word
缺点内向1 天前
如何在C#中为文本内容添加行号?
开发语言·c#·word·.net
LearnerForeveer2 天前
在Word中插入LaTeX风格公式
word
诸神缄默不语3 天前
Python 3中的win32com使用教程+示例:从Excel读取数据生成Word格式报告批量发邮件
python·word·excel
你挚爱的强哥3 天前
【sgSelectExportDocumentType】自定义组件:弹窗dialog选择导出文件格式word、pdf,支持配置图标和格式名称,触发导出事件
vue.js·pdf·word
温轻舟3 天前
Python自动办公工具06-设置Word文档中表格的格式
开发语言·python·word·自动化工具·温轻舟
温轻舟4 天前
Python自动办公工具05-Word表中相同内容的单元格自动合并
开发语言·python·word·自动化办公·温轻舟
亮子AI4 天前
如何做一个类似Word的编辑器?要有修改标记功能
编辑器·word
低调电报4 天前
在WPS可以显示图片,word中不能显示的原因及解决
经验分享·word·wps