自动化办公软件功能文档

办公自动化工具箱 ------ 模块功能说明文档

本工具集由 Excel、文件工具、OCR、PDF、PPT、Word 六大功能模块组成,旨在帮助用户高效完成各类文档处理、数据提取、文件管理等日常工作。各模块独立运行,支持批量操作,内置进度条和日志输出,操作简单直观。


一、Excel 模块

功能概述

提供对 Excel 文件的常用批处理操作,支持跨文件、跨工作表的数据处理。

功能列表

功能按钮 功能说明 操作步骤
合并工作表 将多个 Excel 文件中选定的工作表合并为一个新的 Excel 文件(跨文件)。 ① 点击按钮,选择多个 Excel 文件; ② 在对话框中勾选需要合并的工作表(可来自不同文件); ③ 指定保存路径,开始合并。
拆分工作表 根据某一列的值,将单个 Excel 文件拆分为多个文件(每个值单独生成一个文件)。 ① 选择要拆分的 Excel 文件; ② 选择拆分依据列; ③ 选择输出文件夹,开始拆分。
清洗数据 删除重复行和全空行。 ① 选择 Excel 文件; ② 指定保存路径; ③ 自动完成清洗。
文件检索 在指定目录下递归搜索所有 Excel 文件,查找是否包含指定关键词(支持正则表达式,自动降级)。 ① 选择搜索目录; ② 在弹出的对话框中输入关键词,可选择是否使用正则; ③ 结果列出所有匹配的文件。
缺失值处理 对缺失值进行删除或填充(均值/中位数/众数/自定义值),可针对行或列。 ① 选择 Excel 文件; ② 在弹出的对话框中选择操作类型(删除或填充)、方向(行/列)、填充方法等; ③ 指定保存路径,开始处理。
重命名工作表 批量修改多个 Excel 文件中的工作表名称,支持查找替换、加前缀、加后缀、自定义规则(可引用原名称和序号)。 ① 选择多个 Excel 文件; ② 选择重命名模式并填写相应参数; ③ 选择输出文件夹,执行重命名。
列操作 批量删除或保留指定的列(跨文件,可针对所有工作表或仅第一个)。 ① 选择多个 Excel 文件; ② 选择操作类型(删除列/保留列); ③ 输入列名(逗号分隔); ④ 选择是否处理所有工作表; ⑤ 指定输出文件夹,开始操作。
查找替换 批量查找并替换单元格内容,支持正则表达式(跨文件,可针对所有工作表或仅第一个)。 ① 选择多个 Excel 文件; ② 输入查找内容和替换内容; ③ 选择是否使用正则; ④ 选择是否处理所有工作表; ⑤ 指定输出文件夹,执行替换。

二、Word 模块

功能概述

批量处理 Word 文档(支持 .docx.doc),包括表格提取、内容删除/插入、文档合并、转 PDF、图片提取、内容检索。

重要依赖

  • 读取 .doc 文件需要 Microsoft Wordpywin32(否则会跳过 .doc 文件)。
  • 转换 Word 为 PDF 需要 LibreOffice(程序会自动检测并提示)。

功能列表

功能按钮 功能说明 操作步骤
提取表格数据 提取多个 Word 文档中的表格数据,可选择每个表格单独导出为 Excel,或合并所有表格到一个 Excel 文件。 ① 选择多个 Word 文件; ② 选择是否合并所有表格; ③ 选择输出文件夹; ④ 开始提取。
删除指定内容 根据关键词删除包含该内容的段落或表格行(支持正则表达式)。 ① 选择多个 Word 文件; ② 输入关键词; ③ 选择是否使用正则; ④ 选择输出文件夹; ⑤ 开始删除。
插入内容 在文档开头或结尾插入段落文本或图片。 ① 选择多个 Word 文件; ② 选择插入类型(段落/图片); ③ 输入内容或选择图片; ④ 选择插入位置(开头/结尾); ⑤ 选择输出文件夹; ⑥ 开始插入。
合并多个Word 将多个 Word 文档按顺序合并为一个,保留原格式和图片。 ① 按顺序选择多个 Word 文件; ② 指定保存路径; ③ 开始合并。
转PDF 将 Word 文档转换为 PDF(需安装 LibreOffice)。 ① 选择多个 Word 文件; ② 选择输出文件夹; ③ 开始转换(使用 LibreOffice 后台转换)。
提取图片 提取 Word 文档中的所有内联图片,保存为原始格式。 ① 选择多个 Word 文件; ② 选择输出文件夹; ③ 开始提取。
文件检索 递归搜索指定目录下所有 Word 文件(.docx.doc),查找内容是否包含关键词(支持正则表达式),实时输出匹配的文件路径。 ① 选择搜索目录; ② 输入关键词并选择是否使用正则; ③ 开始搜索,结果在日志中列出。

三、PPT 模块

功能概述

批量处理 PowerPoint 文件(支持 .pptx.ppt),包括文本替换、文字提取、图片提取、格式转换、合并、添加元素等。

重要依赖

  • 处理 .ppt(旧格式)及 转图片、合并、转PDF 等功能需要 Microsoft Office(PowerPoint)pywin32 库。
  • 如果未安装 Office,相关按钮会变为灰色并提示。

功能列表

功能按钮 功能说明 操作步骤
批量替换文本 跨文件批量查找并替换幻灯片中的文本(支持正则表达式,自动处理 .ppt 格式)。 ① 选择多个 PPT 文件; ② 输入查找内容和替换内容; ③ 选择是否使用正则; ④ 选择输出文件夹,开始替换。
提取全部文字 跨文件提取每个 PPT 中所有幻灯片、表格、形状中的文字,导出为独立的 TXT 文件。 ① 选择多个 PPT; ② 选择输出文件夹; ③ 开始提取。
PPT转图片 跨文件将每页幻灯片导出为高清 PNG 图片(需 Office + win32com)。 ① 选择多个 PPT; ② 选择输出文件夹; ③ 开始转换(每个 PPT 生成一个子文件夹存放图片)。
转PDF 跨文件将 PPT 另存为 PDF(需 Office + win32com)。 ① 选择多个 PPT; ② 选择输出文件夹; ③ 开始转换。
合并多个PPT 按选择顺序将多个 PPT 合并为一个文件(需 Office + win32com)。 ① 按顺序选择多个 PPT; ② 指定保存合并文件的路径; ③ 开始合并。
添加页眉/Logo 跨文件在所有幻灯片右上角统一添加文字页眉或 Logo 图片(自动处理 .ppt 格式)。 ① 选择多个 PPT; ② 选择添加类型(文字或图片); ③ 输入内容或选择图片; ④ 选择输出文件夹,开始添加。
提取图片 跨文件提取 PPT 中所有嵌入的图片(支持 .ppt.pptx),每个 PPT 生成一个子文件夹。 ① 选择多个 PPT; ② 选择输出文件夹; ③ 自动提取所有图片。
文件检索 在指定目录下递归搜索所有 PPT 文件(包括 .ppt.pptx),查找内容是否包含关键词(支持正则表达式,包含表格文字),实时输出匹配的文件路径。 ① 选择搜索目录; ② 输入关键词并选择是否使用正则; ③ 开始搜索,结果在日志中列出。

四、PDF 模块

功能概述

提供 PDF 的合并、拆分、文本/表格提取、格式转换、加密解密、页面旋转、内容检索等综合操作,支持跨文件批量处理。

功能列表

功能按钮 功能说明 操作步骤
合并PDF 将多个 PDF 文件合并为一个。 ① 选择多个 PDF; ② 指定保存路径; ③ 开始合并。
按名称提取页 从 Excel 读取名称列表,在指定目录的所有 PDF 中搜索包含该名称的页面,并将匹配页面导出为独立的 PDF 文件(支持正则和 OCR)。 ① 选择 Excel 文件(含名称列); ② 选择 PDF 所在目录; ③ 选择输出目录; ④ 设置高级选项(列名、正则、是否启用 OCR、是否只导出第一个匹配等); ⑤ 开始搜索和提取。
拆分PDF 按每 N 页一份,或按指定页码范围(如 1-3,5,7-9)拆分。 ① 选择要拆分的 PDF; ② 选择拆分方式并输入参数; ③ 选择输出文件夹; ④ 开始拆分。
提取表格 批量提取多个 PDF 中的表格数据,每个 PDF 生成一个 Excel 文件(每页表格独立 Sheet)。 ① 选择多个 PDF; ② 选择输出文件夹; ③ 自动提取并生成 Excel。
PDF转图片 将多个 PDF 的每一页转换为高清 PNG 图片(可设置 DPI)。 ① 选择多个 PDF; ② 设置 DPI; ③ 选择输出文件夹; ④ 开始转换。
提取图片 提取多个 PDF 中的所有内嵌图片资源,保存为原始格式。 ① 选择多个 PDF; ② 选择输出文件夹; ③ 自动提取所有图片。
提取文本 提取多个 PDF 的全部文本内容,每个 PDF 生成一个 TXT 文件。 ① 选择多个 PDF; ② 选择输出文件夹; ③ 开始提取。
图片转PDF 将多张图片合并为一个 PDF,自动适应 A4 尺寸,保持清晰度,可手动调整图片顺序。 ① 选择多张图片; ② 在弹出的对话框中可切换排序方式(按文件名或手动拖拽调整); ③ 指定保存 PDF 路径; ④ 开始生成。
加密/解密 批量加密或解密 PDF(需设置密码)。 ① 选择多个 PDF; ② 选择操作(加密/解密); ③ 输入密码; ④ 选择输出文件夹; ⑤ 开始处理。
旋转页面 批量旋转多个 PDF 的全部或指定页面(90°/180°/270°)。 ① 选择多个 PDF; ② 选择旋转角度; ③ 选择旋转范围(所有页面或指定页码范围); ④ 选择输出文件夹; ⑤ 开始旋转。
文件检索 在指定目录下递归搜索所有 PDF,查找内容是否包含关键词(支持正则表达式),自动识别文字型 PDF 和图片型 PDF(OCR 识别),并实时显示匹配的文件路径。 ① 选择搜索目录; ② 输入关键词并选择是否使用正则; ③ 开始搜索,结果在日志中列出。

五、文件工具模块

功能概述

提供文件与文件夹的批量管理、重命名、归类、搜索、去重等实用工具。

功能列表

功能按钮 功能说明 操作步骤
批量创建文件夹 从 Excel 读取名称列表或按序号批量生成文件夹。 ① 选择创建模式(从Excel读取或按序号生成); ② 选择根目录; ③ 根据模式选择 Excel 文件和列名,或设置前缀/起始序号/数量; ④ 开始创建。
删除空文件夹 递归删除指定目录下所有空文件夹。 ① 选择要清理的根目录; ② 确认后自动删除所有空文件夹。
批量重命名 支持替换、添加前缀/后缀、正则替换、序号重命名等多种模式,可过滤文件类型。 ① 选择文件夹; ② 选择重命名模式并填写参数(如查找替换内容、正则表达式等); ③ 输入文件通配符(如 *.txt); ④ 开始重命名(自动处理重名冲突)。
按顺序重命名 从 Excel 读取名称列表,按文件夹中文件的当前顺序依次重命名。 ① 选择 Excel 文件并指定名称列; ② 选择目标文件夹; ③ 系统会校验文件数量与名称数量是否一致; ④ 开始执行重命名。
提取文件名 将文件夹内所有文件的名称(含相对路径、大小、修改时间)导出到 Excel。 ① 选择要提取的文件夹; ② 选择是否包含相对路径; ③ 指定保存的 Excel 文件; ④ 导出完成。
磁盘空间分析 扫描指定目录下各子文件夹的大小,生成包含大小和占比的报告。 ① 选择要分析的根目录; ② 可选择保存为 Excel 报告; ③ 分析完成显示结果。
批量创建文档 批量生成空白 Excel、Word 或 PPT 文档。 ① 选择输出目录; ② 选择文档类型(excel/word/ppt); ③ 设置基础名称和数量; ④ 开始创建。
自动归类移动 根据文件的修改日期或后缀,自动创建子文件夹并将文件移动到对应目录。 ① 选择源文件夹; ② 选择目标根目录; ③ 选择归类依据(修改日期或文件后缀); ④ 开始移动。
极速搜索 按文件名通配符、文件大小范围、修改日期范围快速搜索文件,结果可导出 Excel。 ① 选择搜索根目录; ② 输入通配符(如 *.xlsx); ③ 设置大小和日期过滤(可选); ④ 可选择保存搜索结果为 Excel; ⑤ 开始搜索。
查找重复文件 基于 MD5 哈希值扫描目录下重复的文件。 ① 选择要扫描的目录; ② 系统扫描所有文件,并列出重复文件对。

六、OCR 模块

功能概述

利用 PaddleOCR 引擎对图片或 PDF 进行文字识别、信息提取和检索。

前置依赖

  • 需要安装 paddlepaddlepaddleocr(建议 CPU 版本)。
  • 首次启动会自动加载模型,请保持网络畅通。

功能列表

功能按钮 功能说明 操作步骤
识别图片文字 批量识别图片中的全部文字,可选择保存为 TXT 文件。 ① 选择一张或多张图片; ② 选择是否保存为文本文件; ③ 开始识别,结果在日志中显示或保存。
识别发票信息 批量识别增值税发票,提取发票代码、号码、日期、金额、税额、价税合计、购买方/销售方名称等字段,导出为 Excel。 ① 选择发票图片; ② 指定保存 Excel 的路径; ③ 开始识别,完成后生成结构化数据。
识别PDF表格 批量识别扫描版 PDF,将每页文字按表格结构提取并导出为 Excel(每个 PDF 生成一个 Excel 文件,每页一个 Sheet)。 ① 选择一个或多个 PDF 文件; ② 指定保存 Excel 的路径; ③ 程序将逐页识别并自动判断行列结构,导出表格数据。
检索图片文字 在图片(或目录下所有图片)中搜索指定关键词,返回包含关键词的图片及文字所在位置(坐标)。 ① 选择检索模式(选择文件或扫描目录); ② 输入关键词; ③ 程序识别并高亮显示匹配结果。
识别身份证信息 批量识别身份证正面,提取姓名、性别、民族、出生日期、住址、公民身份号码,导出为 Excel。 ① 选择身份证图片; ② 指定保存 Excel 路径; ③ 开始识别并导出。

附录:运行环境与依赖

基础依赖

  • Python 3.10
  • PyQt5
  • pandas
  • openpyxl
  • pdfplumber
  • PyPDF2
  • PyMuPDF (fitz)
  • python-docx
  • pillow

可选依赖(按模块)

  • OCR 模块paddlepaddle, paddleocr
  • PPT 模块 (转图片/合并/转PDF):pywin32 + Microsoft Office(PowerPoint)
  • Word 模块 (读取 .doc):pywin32 + Microsoft Word
  • Word 转 PDF:LibreOffice(可执行文件需在 PATH 中或自动检测)
  • PPT 提取文字/替换等python-pptx
  • 创建 PPT 文档python-pptx(但模块中使用了 pptx 库,已包含)

注意事项

  1. 使用 PPT/Word 依赖 Office COM 的功能时,请确保已安装完整版 Office(非精简版)且具有相应权限。
  2. 所有批量操作均支持进度条显示和日志记录,异常信息会输出在日志区域。