python实战三-提取Word数据到Excel

视频+源码:

链接:https://pan.quark.cn/s/83db5bb15383

一个文件夹下有大量会议通知文件,为word文件,文件格式都是一致的,现在要将文件中的一些字段提取出来汇总到Excel文件中。

会议通知文件格式如下:

要提取学习时间、学习内容、学习形式、主持人汇总到 会议汇总.xlsx 中,每新增一条记录序号加1

Excel表格式如下:

代码如下:

python 复制代码
from docx import Document
from openpyxl import load_workbook
import glob

def 提取数据汇总(file_dir):
    tempfile = file_dir + r'\汇总模版.xlsx'
    workbook = load_workbook(tempfile)  # 打开模板文件
    sheet = workbook.active
    number = 1  # 计数

    docFiles = glob.glob(file_dir + r'\*.docx')  # 筛选出指定文件下所有.docx后缀文件
    for file in docFiles:
        print(file)
        doc = Document(file)
        contentList = []  # 学习内容
        studyTime = ''  # 学习时间
        studyType = ''  # 学习形式
        host = ''  # 主持人
        for paragraph in doc.paragraphs:
            if paragraph.text[2:7] == '学习时间:':
                studyTime = paragraph.text[7:]
            if paragraph.text[2:6] == '主持人:':
                host = paragraph.text[6:]
            if paragraph.text[2:7] == '学习形式:':
                studyType = paragraph.text[7:]
            if len(paragraph.text) >= 2:
                if paragraph.text[0].isdigit() and paragraph.text[1] == '、':
                    contentList.append(paragraph.text)
        content = ' '.join(contentList)  # 列表转化为字符串
        sheet.append([number, studyTime, content, studyType, host])
        number += 1

    workbook.save(file_dir + r'\会议汇总.xlsx')

if __name__ == '__main__':
    提取数据汇总(r'D:\自动化')

很简单自己创建 几个word试试吧:

关于党委理论学习中心组

2021 年第一次学习会的通知

公司党委领导班子成员:

定于3月1日组织公司党委理论学习中心组2021年第一次学习会,现将有

关事项通知如下:

一、学习时间:2021年3月10日下午4:00.

二、学习地点:5楼会议室,

三、参加人员:公司领导班子成员

四、主持人:李 XX。

五、学习形式:集中学习。I

六、学习内容:

1、2022谢谢小星星

2、生的点点滴滴

七、相关要求:

1.学习资料提前发给与会人员,请与会人员做好学习及发言准备;

2.请与会人员妥善安排工作,准时参加,学习时间如有变

运行结果:

相关推荐
Evan芙5 小时前
用fping编写脚本扫描10.0.0.0/24网段在线主机
linux·运维·网络·excel
CodeCraft Studio7 小时前
纯前端文档编辑组件——Spire.WordJS全新发布
前端·javascript·word·office·spire.wordjs·web文档编辑·在线文档编辑器
SamDeepThinking10 小时前
基于CompletableFuture的主子任务并行处理架构实战:多渠道账单并发导入性能提升5倍的技术方案
java·后端·excel
SamDeepThinking10 小时前
88MB Excel文件导致系统崩溃?看我如何将内存占用降低
java·excel
伟贤AI之路10 小时前
原创分享:Markdown 转 Word 工具,一键导出Word/PDF文档
pdf·word·markdown·markdown转
爱吃山竹的大肚肚11 小时前
使用 poi-tl 生成 Word 文档并上传到 Minio
word
ChrisitineTX11 小时前
警惕数据“陷阱”:Python 如何自动发现并清洗 Excel 中的异常值?
开发语言·python·excel
我的golang之路果然有问题11 小时前
word中latex插入矩阵的语法问题
笔记·学习·矩阵·word·latex·template method·分享
wtsolutions11 小时前
Excel to JSON by WTSolutions 4.0.0 版本更新公告
json·excel·wps·插件·转换·加载项·wtsolutions
wtsolutions11 小时前
Excel to JSON by WTSolutions 4.0.0 Update Announcement
json·excel·wps·addin·wtsolutions·conversion