[RPA] PDF文件合并

山茶花开时。2026-01-29 13:03

RPA需求：PDF文件合并

场景说明：根据文件前缀数字编号分组划分，发票在前，箱单在后，进行PDF文件合并操作

RPA功能

1.发票在前，箱单在后，根据文件前缀数字编号分组划分进行PDF文件合并操作

2.RPA仅对未合并的PDF文件执行合并操作，已合并的文件将被自动筛选并排除

其中PDF文件存放位置如下所示：

"原始单据"文件夹存放需要进行合并的PDF文档

"合并单据"文件夹存放RPA处理合并后的PDF文档

RPA实现思路：

① 遍历循环"合并单据"文件路径中的pdf文件，获取文件名(带后缀名.pdf)存储在Python列表output_file_list

② 遍历循环"原始单据"文件路径中的pdf文件，获取文件名(带后缀名.pdf)存储在Python列表input_file_list

③ 使用Python代码实现以下逻辑

Step 1: 提取 output_file_list 中的所有前缀数字编号，例如"80017413-001"

Step 2: 筛选 input_file_list 中前缀数字编号不包含在Step1前缀数字编号中的文件，将其箱单和发票文件名(带后缀名.pdf)存储到Python列表filtered_input_list

④ 使用Python代码实现以下逻辑

依据 filtered_input_list 提供的文件名列表，在"原始单据"文件夹中定位所有目标PDF文件，提取每个文件名开头的数字编号作为分组依据，将同组文件合并为一个 PDF，将所有合并后的新PDF文件，统一保存至"合并单据"文件夹

搭建RPA的相关指令(仅供参考)：

1.循环文件路径

2.获取文件属性

3.数组处理

4.Python脚本