设计部门针对某个项目做了一个工艺汇总报告,原先只要几十个工艺文件,组合成一个PDF,但后来要求要多放点PDF进去,但工艺文件都混在一起又不知道哪些是重复的,找上我让我帮忙处理一下,我开始建议让她重新再组合一PDF就行了,但她说前面有一些说明资料不在她手上,她只能将原来的组合文件和新加入的工艺文件再组合。
1、首先考虑怎么将PDF中存在的工艺书签复制出来
PDF中的书签目录是这样的
而所有的工艺PDF文件有不少,如果一个一个去对,还是要花不少时间的
这里找到一个工具FreePic2Pdf,按照这个使用方法提取出了PDF中已经有的工艺目录
将其复制到EXCEL中去。
二、然后考虑怎么将文件夹中所有的PDF文件,与已经有的记录进行比对。
利用VBA的DIR函数获取文件名
vbnet
Sub abc()
Dim filepath As String, filename As String
Dim ljdm As Variant
filepath = ThisWorkbook.Path & "\22-1113PDF\"
filename = Dir(filepath & "*.pdf")
Do While filename <> "" '判断文件名不为空时
For i = 1 To 700'这里只要比PDF文件个数多就行
ljdm = filename '获取文件名中的零件代码
ActiveSheet.Cells(i, 2) = ljdm
filename = Dir()
Next
Loop
End Sub
然后两列数据进行排序、查重,就搞定了。
最后在文件夹中排序,排好序后就和表格中的一样顺序了,将"有"的PDF文件删除,剩下的就是原来PDF组合中没有的文件了。
其实还可以用python获取已有的记录,还可以用VBA进行一一比对,在表格中就挑出没有记录,不过只要利用手头上的工具干好事情也是一样的。