视频+源码:
链接:https://pan.quark.cn/s/83db5bb15383
一个文件夹下有大量会议通知文件,为word文件,文件格式都是一致的,现在要将文件中的一些字段提取出来汇总到Excel文件中。
会议通知文件格式如下:
要提取学习时间、学习内容、学习形式、主持人汇总到 会议汇总.xlsx 中,每新增一条记录序号加1
Excel表格式如下:
代码如下:
python
from docx import Document
from openpyxl import load_workbook
import glob
def 提取数据汇总(file_dir):
tempfile = file_dir + r'\汇总模版.xlsx'
workbook = load_workbook(tempfile) # 打开模板文件
sheet = workbook.active
number = 1 # 计数
docFiles = glob.glob(file_dir + r'\*.docx') # 筛选出指定文件下所有.docx后缀文件
for file in docFiles:
print(file)
doc = Document(file)
contentList = [] # 学习内容
studyTime = '' # 学习时间
studyType = '' # 学习形式
host = '' # 主持人
for paragraph in doc.paragraphs:
if paragraph.text[2:7] == '学习时间:':
studyTime = paragraph.text[7:]
if paragraph.text[2:6] == '主持人:':
host = paragraph.text[6:]
if paragraph.text[2:7] == '学习形式:':
studyType = paragraph.text[7:]
if len(paragraph.text) >= 2:
if paragraph.text[0].isdigit() and paragraph.text[1] == '、':
contentList.append(paragraph.text)
content = ' '.join(contentList) # 列表转化为字符串
sheet.append([number, studyTime, content, studyType, host])
number += 1
workbook.save(file_dir + r'\会议汇总.xlsx')
if __name__ == '__main__':
提取数据汇总(r'D:\自动化')
很简单自己创建 几个word试试吧:
关于党委理论学习中心组
2021 年第一次学习会的通知
公司党委领导班子成员:
定于3月1日组织公司党委理论学习中心组2021年第一次学习会,现将有
关事项通知如下:
一、学习时间:2021年3月10日下午4:00.
二、学习地点:5楼会议室,
三、参加人员:公司领导班子成员
四、主持人:李 XX。
五、学习形式:集中学习。I
六、学习内容:
1、2022谢谢小星星
2、生的点点滴滴
七、相关要求:
1.学习资料提前发给与会人员,请与会人员做好学习及发言准备;
2.请与会人员妥善安排工作,准时参加,学习时间如有变
运行结果: