【办公类-21-04】20240227单个word按“段落数”拆分多个Word(三级育婴师操作参考题目 有段落文字和表格 1拆13份)

作品展示

背景需求:

最近学育婴师,老师发了一套doc操作参考

但是老师是一节节授课的,每节都有视频,如果做在一个文档里,会很长很长,容易找不到。所以我需要里面的单独文字的docx。

以前的方法是

1、打开源文件,保留第1题,删除2-13题,再另存题目1,

2、再恢复原始状态,保留第2题,删除第1题、第3-13题,在另存题目2

......

之前试过把多个word合并成1个word,

【办公类-21-01】20240117育婴师操作题word合并1.0-CSDN博客文章浏览阅读912次,点赞15次,收藏10次。【办公类-21-01】20240117育婴师操作题word合并1.0https://blog.csdn.net/reasonsummer/article/details/135651389?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22135651389%22%2C%22source%22%3A%22reasonsummer%22%7D

现在想试试能不能把1个word拆分成多个word

解题思路:

一、另存为docx文件

二、去除word里面的空行回车

python 复制代码
from docx import Document
from openpyxl import load_workbook
import glob
import re
 
#  将模板 Excel 读取进程序:
path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\育婴师三级教育操作参考.docx'  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\育婴师三级教育操作参考2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)

  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\育婴师三级教育操作参考(去掉回车).docx')

三、读取word里面"加粗标题"所在的行

python 复制代码
print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\育婴师三级教育操作参考(去掉回车).docx'

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                # print(t)
                s.append(t)
s=list(set(s))
s.sort()
# print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]

1、提取加粗标题的文字部分,做保存的文件名

2、提取两个黑体加粗标题之间的行数

四、word里面有表格,它也占了段落数,但段落里不显示

直接删除小于23并大于45的段落,生成第2套题目

python 复制代码
print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\育婴师13题拆分'
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >int(j[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{} {}.docx'.format('%02d'%x,s[x]))

结果第2份前面多了2行,后面少了2行。

分析后认为,可能导致错行的原因是每份操作题内有"表格"。

第1份题目里面有2个表格,也占了2行,虽然表格被删除了,但是段落占位没有删除,导致第2份题目表格出现正好2行的的错位。

计算每份题中表格的数量 2、1、0、1、1、1、1、1、1、1、1、0、0、0

python 复制代码
print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# 第一张表是原来的段落数,所以就是0
bg.insert(0,0)
# print(bg)

# 数字累加
o = []
sum = 0
for num in bg:
    sum += num
    o.append(sum)
print(o)
# [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # 没有空行的内容

确保第2份开始的段落数+累计的表格数

结果正确

全部代码

python 复制代码
# https://blog.csdn.net/lau_jw/article/details/114383781

'''
目的:育婴师word题目拆分成多个表格(根据标题(加粗)所在行数拆分)
作者:阿夏
时间:2024年2月27日
'''

from docx import Document
from openpyxl import load_workbook
import glob
import re,os
 
print('----1、word数据清洗------')


path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\育婴师三级教育操作参考.docx'  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\育婴师三级教育操作参考2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)
  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\育婴师三级教育操作参考(去掉回车).docx')



print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\育婴师三级教育操作参考(去掉回车).docx'

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                # print(t)
                s.append(t)
s=list(set(s))
s.sort()
# print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# 第一张表是原来的段落数,所以就是0
bg.insert(0,0)
# print(bg)

# 数字累加
o = []
sum = 0
for num in bg:
    sum += num
    o.append(sum)
print(o)
# [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # 没有空行的内容


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\育婴师13题拆分'
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >int(j[x]+o[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]+o[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{} {}.docx'.format('%02d'%x,s[x]))

感悟:

1、删除段落和表格:本篇用删除段落和表格的方式保留需要的段落部分

后续思考:可以试试复制法------复制25-47的内容,清空文档,再黏贴25-47的内容,另存为。

2、段落内包含表格占位,有点难办

段落里有表格占位,这个很麻烦,如果有很多份操作题需要拆开,我不可能去看每套题目里面有几张表格,并做段落数累加。后续还要再研究段落数与表格在第几段上。

相关推荐
一点媛艺1 小时前
Kotlin函数由易到难
开发语言·python·kotlin
魔道不误砍柴功2 小时前
Java 中如何巧妙应用 Function 让方法复用性更强
java·开发语言·python
_.Switch2 小时前
高级Python自动化运维:容器安全与网络策略的深度解析
运维·网络·python·安全·自动化·devops
测开小菜鸟3 小时前
使用python向钉钉群聊发送消息
java·python·钉钉
萧鼎5 小时前
Python并发编程库:Asyncio的异步编程实战
开发语言·数据库·python·异步
学地理的小胖砸5 小时前
【一些关于Python的信息和帮助】
开发语言·python
疯一样的码农5 小时前
Python 继承、多态、封装、抽象
开发语言·python
Python大数据分析@5 小时前
python操作CSV和excel,如何来做?
开发语言·python·excel
黑叶白树5 小时前
简单的签到程序 python笔记
笔记·python
Shy9604185 小时前
Bert完形填空
python·深度学习·bert