【python】使用docx获取word文档的标题等级、大纲等级和编号等级

标题等级、大纲等级、编号等级的区别

在Microsoft Word中:

  • 【标题X】是一个样式,一般来说,【标题1】样式的大纲级别是1级。
  • 大纲级别一般用于页面导航和生成目录。可以右键文字->段落里查看/设置大纲的级别。设置成【x级】后左侧导航栏就会显示。
  • 编号等级就是大家熟知的项目编号,常用于正文。

1、使用docx读取word文档

python 复制代码
from docx import Document

source_path = "./test.docx"
docs = docx_Document(source_path)

基本没有一个python库能直接读取doc文档的,所以需要先把doc转化为docx文件,参考:【python】linux系统下doc转docx文件

2、使用docx获取word文档的标题 等级 样式

python 复制代码
import re

for paragraph in docs.paragraphs:
    if paragraph and paragraph.text:
        # 获取xml源码
        xml = paragraph._p.xml
        # 进行xml源码字符匹配
        if xml.find('<w:outlineLvl') >= 0:
            start_index = xml.find('<w:outlineLvl')
            end_index = xml.find('>', start_index)
            outlineLvl_value = xml[start_index:end_index+1]
            outlineLvl_value = re.search("\d+", outlineLvl_value).group()
            print(f"文本:{paragraph.text}-->大纲等级:{outlineLvl_value}")

原理:

1、docx.Document()读取文档后会按照文章段落划分成一段一段的。

2、然后我们再获取每个段落的xml源码,即:xml = paragraph._p.xml。

3、源码中的<w:outlineLvl w:val="2"/>就表示这是个3级大纲(因为是从0开始)。

4、接下来就好办了,就用字符串匹配把这个值提取出来就行了。

3、使用docx获取word文档的编号等级

原理和代码同上,只需要把outlineLvl改成ilvl即可。

相关推荐
phper81 分钟前
Python项目在 Cursor 编辑器中 Conda 环境配置问题
python·conda·cursor
阿_旭7 分钟前
基于YOLO11深度学习的运动品牌LOGO检测与识别系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·毕业设计·logo检测
SomeB1oody8 分钟前
【Python机器学习】1.9. 逻辑回归实战(进阶):建立二阶边界模型
人工智能·python·机器学习·ai·逻辑回归
go546315846514 分钟前
简单的 Python 示例,用于生成电影解说视频的第一人称独白解说文案
开发语言·python
YueiL18 分钟前
OpenCV 颜色空间:原理与操作指南
python·opencv
鲤籽鲲1 小时前
C# Enumerable类 之 数据排序
开发语言·c#·c# 知识捡漏
小码编匠2 小时前
WinForm 中也可以这样做数据展示
windows·后端·c#
databook2 小时前
manim边学边做--线性变换的场景类
python·动效
AmazingKO2 小时前
【够用就好008】开新坑自学esb32烧录进军物联网和嵌入式
人工智能·python·物联网·chatgpt·github·方方上土·aigc创意人竹相左边
rocksun2 小时前
UNITTEST: PYTHON开发者内置的安全网
python