Python 自动化之处理docx文件（一）

批量筛选docx文档中关键词

文章目录

批量筛选docx文档中关键词
前言
一、做成什么样子
二、基本架构
三、前期输入模块
三、数据处理模块
总结

前言

在工作中经常会遇到，需要检查文档千万不能出现某个关键词，一个文档那还好说。但如果有成千上百个需要检查呢？

下面来给大家介绍一个批量检查的教程。

一、做成什么样子

支持当前目录下所有docx文档内容的检查。
支持当前目录下的子目录里面所有的docx文档内容的检查。
当前目录出现的问题会在当前目录生成日志文件记录下来。
日志格式为：<<文件绝对路径>> 文档中出现了关键词：《关键词》。
支持批量输入关键词，所有关键词都会进行逐一对比。

下面给大家展示一下效果图。

二、基本架构

主要包括以下几部分：

库输入模块
路径输入模块
关键词输入模块
数据处理模块

三、前期输入模块

库、路径、关键词比较简单。我就把它们全部写到这一节。

1.引入库

python 复制代码

import docx
import os
import re

docx：用来读取文档内容的。

os：用来搞定一系列路径问题。

re：正则表达式模块，用来给关键词搞精确匹配的。

2.路径输入

代码如下：

python 复制代码

print(r'请输入文档完整路径（例子：E:\vtest）：', end='')
file_path = input()

# 获取目录下的所有条目
entries = os.listdir(file_path)
print(entries)

输入路径后，程序会先获取一下当前路径下的东西，形成一个列表并打印出来。

3.关键词输入

代码如下：

python 复制代码

# 获取关键词列表
Prohibited_lists = []
while True:
    print('请输入要查询的关键字（例子：奥利给），按q退出输入：', end='')
    Prohibited_words = input()
    if Prohibited_words == 'q':
        break
    Prohibited_lists.append(Prohibited_words)

print("退出循环，禁止词汇列表：", Prohibited_lists)

首先，创建一个空列表，用来存储用户输入的关键词。

其次，一个while循环，用来保持用户可以一直输入关键词。

然后，关键词触发，当用户输入q可以退出输入关键程序。

最后，打印一条信息，告诉用户都有哪些关键词会进行匹配。

三、数据处理模块

这里我先写一下处理逻辑。

1.基本架构

python 复制代码

for entry in entries:
    if entry.endswith('.docx'):    # 如果是docx文档
    	...........       
    elif os.path.isdir(os.path.join(file_path, entry)):    # 如果目录里的东西还是个目录
       ...........

首先，搞个循环结构，遍历一下用户输入的路径下的东西。

其次，对这些东西进行判断，进行两中不同的操作。

下面我将会按照这个结构顺序来写。

2.如果是docx文档

2.1.读取当前文档内容

python 复制代码

for entry in entries:
    if entry.endswith('.docx'):    # 如果是docx文档
    
        # 使用os.path.join()构造完整文件路径
        full_entry_path = os.path.join(file_path, entry)

        # 使用 python-docx 打开文档
        doc = docx.Document(full_entry_path)

        # 将每一个段落的文本合并为一个字符串
        text = " ".join([para.text for para in doc.paragraphs])

首先，根据当前遍历的文件和用户输入的路径来共同构成完整文件路径。

其次，根据完整文件路径，读取文件内容。

最后，将每一个段落的文本合并为一个字符串，便于后面的关键字匹配。

2.2.遍历匹配关键字

python 复制代码

        # 遍历关键字列表
        for Prohibited_list in Prohibited_lists:
            # 正则表达式匹配关键字
            ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')
            mo = ProhibitedRegex.search(text)

这里我们用的是正则表达式匹配关键字。看不懂的同学要去看下正则表达式的知识点喽。

ProhibitedRegex = re.compile(rf'.{Prohibited_list}+.') 这行代码创建了一个正则表达式对象，用于查找包含在 Prohibited_list 关键词。

mo = ProhibitedRegex.search(text) 这行代码使用了上面创建的正则表达式对象来搜索 text 中是否存在匹配的禁止词汇。如果找到匹配项，则返回一个匹配对象（MatchObject），否则返回 None。

2.3.触发匹配并记录日志

python 复制代码

            # 如果匹配到了关键字
            if mo is not None:
                # 使用os.path.join()构造完整文件路径
                full_text_path = os.path.join(file_path, 'problems.txt')
                # 将问题写入text文档，并保存到当前目录
                with open(full_text_path, 'a') as f:
                    f.write(f'<<{full_entry_path}>> 文档中出现了关键词：{Prohibited_list}\n')
                    
            # 如果没有匹配到关键字
            else:
                print(f'<<{full_entry_path}>> 文档没有出现关键词：{Prohibited_list}。')

一目了然，共分成两部分：一是匹配到了关键字；二是没有匹配到关键字。

匹配到了：第一步先构建日志文件的路径；第二步将问题写入到text文档，并保存到当前目录（如果当前目录没有该文件，会自动创建。）

没匹配到：就简单提示一下啦。

3.1.判断并生成新目录

python 复制代码

    # 判断目录下是否还有目录
    elif os.path.isdir(os.path.join(file_path, entry)):

        # 使用字符串拼接一下路径，生成新路径（给子目录下的文档使用）
        file_path = file_path + '\\' + entry

一般我们保存文件不会一股脑的都保存到一个目录中。最起码目录中再搞一个子目录分一下类。

这个代码就是处理这个问题的。

3.2.获取子目录里的东西并遍历它

python 复制代码

        # 获取目录下的所有条目
        entries = os.listdir(file_path)
        print(entries)
        # 遍历当前所有条目
        for entry_1 in entries:

接下来就是获取一下子录下的所有东西啦。

然后再搞一个遍历结构，一个一个的处理它们。

3.3.接着判断如果是docx文档

python 复制代码

            if entry_1.endswith('.docx'):
                
                # 使用os.path.join()构造完整文件路径
                full_entry_path = os.path.join(file_path, entry_1)

                # 使用 python-docx 打开文档
                doc = docx.Document(full_entry_path)

                # 将每一个段落的文本合并为一个字符串
                text = " ".join([para.text for para in doc.paragraphs])

请参考 《2.1.读取当前文档内容》

3.4.遍历匹配关键字

python 复制代码

                # 正则表达式匹配关键字
                for Prohibited_list in Prohibited_lists:
                    ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')
                    mo = ProhibitedRegex.search(text)

请参考 《2.2.遍历匹配关键字》

3.5.触发匹配并记录日志

python 复制代码

                    if mo is not None:
                        # 使用os.path.join()构造完整文件路径
                        full_text_path = os.path.join(file_path, 'problems.txt')
                        # 将问题写入text文档，并保存到当前目录
                        with open(full_text_path, 'a') as f:
                            f.write(f'<<{full_entry_path}>> 文档中出现了关键词：{Prohibited_list}\n')
                            
                    else:
                        print(f'<<{full_entry_path}>> 文档没有出现关键词：{Prohibited_list}。')

请参考 《2.3.触发匹配并记录日志》

总结

以上的代码，包括我之前写的所有代码，都是在Python 3.11版本下写的，其它版本下运行可能会有问题。并且以上代码可以直接按顺序复制粘贴就可以使用，不用再调格式（可以发现越往后代码前面的空格越多，这个就是格式）。用起来有问题可以私信或者评论给我哦。

Python 自动化之处理docx文件（一）

批量筛选docx文档中关键词

文章目录

前言

一、做成什么样子

二、基本架构

三、前期输入模块

1.引入库

2.路径输入

3.关键词输入

三、数据处理模块

1.基本架构

2.如果是docx文档

2.1.读取当前文档内容

2.2.遍历匹配关键字

2.3.触发匹配并记录日志

3.如果目录下还有一个目录

3.1.判断并生成新目录

3.2.获取子目录里的东西并遍历它

3.3.接着判断如果是docx文档

3.4.遍历匹配关键字

3.5.触发匹配并记录日志

总结