PDF文件格式(二):交叉引用类型“O“

PDF交叉引用类型有三种:"n","f","o";前两种比较常见,本文介绍第三种"o"类型。

type为"o"类型的引用在PDF文件中不能够直接找到对应的obj,它被以压缩的形式内嵌在其他的obj内,因此此类型的引用解析比较麻烦;

解析过程如下:

  1. 获取交叉引用相关信息,先拿到其对应的ofs值,正常交叉引用的ofs表示对应obj的位置,但是这里ofs表示此交叉引用的信息被保存位置所在的obj位置;

  2. 找到对应obj,获取其对应的"First"和"N"的值;First表示obj的stream解压之后需要解析的初始基本位置(base);N表示需要解析的次数,每次解析的内容是交叉引用obj号和stream解压之后需要解析的位置(ofs);最后交叉引用obj内容对应的解析位置是base+ofs,解析的内容是一个pdf的基本类型内容即可。到这里,交叉引用"o"类型的内容解析完毕。

实例:

这是一段交叉引用表,Index内容是13 61,表示从13号Obj开始,到74号结束,这里我们解析46号obj,不过在在PDF文档内查找并没有看到46号obj的,经过解析得出46号obj类型为'o',因此不能直接在文档内找到obj:

上面没有46号obj; 接下来需要解析交叉引用表得到46号obj对应的ofs(解析方法在前文PDF文件格式一),不过此时的ofs表示需要定位的obj的号,这里得到46号obj的ofs为19(截图红线部位),下面就是19号obj内容:

19号obj内容可以看到First是219,N是28;然后解压缩stream内容如下:

219的位置就是"<</DA"的初始位置,即交叉引用内容位置;28表示从开头位置解析次数,这里解析第一次内容是45和0,表示45号obj和此obj对应内容位置为219+0,定位位置是"<<",表示这个obj对应内容是字典,解析一个字典内容是"<</DA(/Helv 0 Tf 0 g )/DR<</Encoding<</PDFDocEncoding 10 0 R>>/Font<</Helv 8 0 R/ZaDb 9 0 R>>>>/Fields\[\]>>",第二次解析内容是46和106,表示46号obj和对应内容位置是219+106,定位位置是"",表示这个obj对应内容是数组,解析一个数组内容就是"\[47 0 R 48 0 R";后面解析方法以此类推。

上面就是获取交叉引用类型为"o"内容的方法了。

相关推荐
devilnumber4 小时前
Java 递归算法 详解 + 核心要点 + 实战运用 + 避坑指南
java·开发语言·算法
asdfg12589636 小时前
JavaBean是什么?怎么理解?有什么用途?
java·开发语言
qq_422152576 小时前
PDF 加水印工具怎么选?2026 年文档版权保护方案对比
前端·pdf·github
映翰通朱工7 小时前
工业4G网关无公网IP远程运维实战(内网终端异地访问方案)
运维·服务器·网络·安全·智能路由器
洪晓露7 小时前
将 rke2 集群证书延长至 10 年
运维·服务器·数据库
摇滚侠7 小时前
SpringMVC 入门到实战 文件上传 75-77
java·后端·spring·maven·intellij-idea
IP老炮不瞎唠7 小时前
Python 价格监控如何实现?思路与实用方法分享
运维·服务器·网络
GIS数据转换器7 小时前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
华如锦8 小时前
面了很多 Java转AI Agent方向,一些面试题总结
java·开发语言·人工智能·python·ai
睡不醒男孩0308238 小时前
CLup 6.x 版本中针对StarRocks 存算一体集群的完整操作手册
java·服务器·网络·clup