【python】使用docx获取word文档的标题等级、大纲等级和编号等级

标题等级、大纲等级、编号等级的区别

在Microsoft Word中:

  • 【标题X】是一个样式,一般来说,【标题1】样式的大纲级别是1级。
  • 大纲级别一般用于页面导航和生成目录。可以右键文字->段落里查看/设置大纲的级别。设置成【x级】后左侧导航栏就会显示。
  • 编号等级就是大家熟知的项目编号,常用于正文。

1、使用docx读取word文档

python 复制代码
from docx import Document

source_path = "./test.docx"
docs = docx_Document(source_path)

基本没有一个python库能直接读取doc文档的,所以需要先把doc转化为docx文件,参考:【python】linux系统下doc转docx文件

2、使用docx获取word文档的标题 等级 样式

python 复制代码
import re

for paragraph in docs.paragraphs:
    if paragraph and paragraph.text:
        # 获取xml源码
        xml = paragraph._p.xml
        # 进行xml源码字符匹配
        if xml.find('<w:outlineLvl') >= 0:
            start_index = xml.find('<w:outlineLvl')
            end_index = xml.find('>', start_index)
            outlineLvl_value = xml[start_index:end_index+1]
            outlineLvl_value = re.search("\d+", outlineLvl_value).group()
            print(f"文本:{paragraph.text}-->大纲等级:{outlineLvl_value}")

原理:

1、docx.Document()读取文档后会按照文章段落划分成一段一段的。

2、然后我们再获取每个段落的xml源码,即:xml = paragraph._p.xml。

3、源码中的<w:outlineLvl w:val="2"/>就表示这是个3级大纲(因为是从0开始)。

4、接下来就好办了,就用字符串匹配把这个值提取出来就行了。

3、使用docx获取word文档的编号等级

原理和代码同上,只需要把outlineLvl改成ilvl即可。

相关推荐
wangl_926 分钟前
C#性能优化完全指南 - 从原理到实践
开发语言·性能优化·c#·.net·.netcore·visual studio
aisifang008 分钟前
PDF转Word神器:Gemini3.1Pro一键搞定文档处理
人工智能·pdf·word
la_vie_est_belle10 分钟前
Pygame Studio——用Python自制的一款可视化游戏编辑器
python·游戏·编辑器·游戏引擎·pygame·pyside6·pygame-ce
joshchen21516 分钟前
强化学习基础(赵世钰)第二章 贝尔曼方程
人工智能·python·机器学习·强化学习
小妖同学学AI18 分钟前
架构图即代码:GitHub星标41.9k的Diagrams,用Python解放你的画图生产力
开发语言·python·github
第一程序员24 分钟前
2026年Python就业市场分析:非科班转码者的机会与挑战
python·github
我是唐青枫24 分钟前
别只会用 MemoryCache!C#.NET CacheManager 详解:多级缓存、Region 与 Redis 实战
缓存·c#·.net
Thanks_ks25 分钟前
【第 002 讲】Python 标准开发环境搭建:运行环境 | 环境变量 | IDE 部署 | 配置优化
ide·python·pycharm·开发工具·环境配置·环境变量·编程基础
雷帝木木25 分钟前
Python 中的配置文件管理:从基础到高级应用
人工智能·python·深度学习·机器学习
郝学胜-神的一滴26 分钟前
Python 鸭子类型:优雅的多态哲学,让代码更自由
linux·服务器·开发语言·python·网络协议