文章目录
-
- [PDFium 处理通用 `W` 数组的方式](#PDFium 处理通用
W数组的方式) -
- [1. `W` 数组的结构与取值](#1.
W数组的结构与取值) - [2. PDFium 的通用处理逻辑](#2. PDFium 的通用处理逻辑)
- 总结
- [1. `W` 数组的结构与取值](#1.
- [PDFium 处理通用 `W` 数组的方式](#PDFium 处理通用
PDFium 处理通用 W 数组的方式
W 数组结构不一定是 [1, 4, 1],PDFium 使用一套通用逻辑来处理各种情况。该逻辑的核心思想是:W 数组的三个值分别指定每个 XRef 条目中类型(Type) 、字段2(Field2) 、生成号(Generation Number) 的字节宽度,字段宽度为 0 时表示该字段在流中省略,使用默认值。解析器通过 WidthArray 存储这三个宽度值,并计算每个条目的总字节数,然后通过一个通用的 GetVarInt 函数来读取指定宽度的整数值。
1. W 数组的结构与取值
W 数组是一个包含三个整数的数组,如 [1 4 1],表示类型占 1 字节、字段2占 4 字节、生成号占 1 字节,每个条目共 6 字节。实际中,W 数组可能有各种组合,例如:
[0 4 1]: 类型字段宽度为 0,意味着流中不存储类型,应使用默认类型 1。[1 2 1]: 字段2宽度为 2 字节,常用于对象数量较少的小文件。[1 8 2]: 字段2宽度为 8 字节,用于支持超大文件中的偏移量。[1 4 0]: 生成号字段宽度为 0,意味着生成号默认使用 0。[0 8 0]: 类型字段默认 1,生成号默认 0,流中只存储一个 8 字节的字段2。
2. PDFium 的通用处理逻辑
PDFium 通过 LoadCrossRefV5 函数中的三段核心代码实现了对 W 数组的通用处理:
cpp
// 从字典中读取 W 数组并存入 WidthArray
std::vector<uint32_t> WidthArray;
for (size_t i = 0; i < pArray->GetCount(); ++i)
WidthArray.push_back(pArray->GetIntegerAt(i));
uint32_t totalWidth = WidthArray[0] + WidthArray[1] + WidthArray[2];
WidthArray 的每个值可以不同,totalWidth 是动态计算的。随后,GetVarInt 函数被用于解析条目中的整数值:
cpp
uint32_t GetVarInt(const uint8_t* p, int32_t n) {
uint32_t result = 0;
for (int32_t i = 0; i < n; ++i)
result = result * 256 + p[i];
return result;
}
GetVarInt 的 n 参数正是 WidthArray 中的某个值,如 WidthArray[0]、WidthArray[1] 或 WidthArray[2]。如果 n 为 0,函数不会执行循环,直接返回 result 的初始值 0。
在解析每个 XRef 条目时,PDFium 使用 WidthArray 来控制解析流程:
cpp
const uint8_t* entrystart = segstart + j * totalWidth;
int32_t type = 1;
if (WidthArray[0])
type = GetVarInt(entrystart, WidthArray[0]);
FX_FILESIZE field2 = GetVarInt(entrystart + WidthArray[0], WidthArray[1]);
int32_t gen = GetVarInt(entrystart + WidthArray[0] + WidthArray[1], WidthArray[2]);
这段代码的逻辑是:
- 如果
WidthArray[0]大于 0,则从流中读取type;否则type保持默认值 1。 field2的起始位置是entrystart + WidthArray[0],读取的字节数是WidthArray[1],值可以为 0。gen的起始位置是entrystart + WidthArray[0] + WidthArray[1],读取的字节数是WidthArray[2]。
这意味着,只要按照 WidthArray 中指定的宽度去读取并解释每个字段,无论 W 数组是 [1,4,1]、[0,4,1] 还是其他组合,PDFium 都能正确解析。
总结
总结来说,PDFium 通过 动态解析 W 数组 、按字节流式读取 、使用通用整数转换 ,以及 对零宽度的字段使用默认值 的方式,实现了对任意 W 数组结构的通用处理,从而保证了其作为 PDF 解析库的兼容性。
如果对具体的字段默认值来源或者解析后的条目如何使用还有疑问,我们可以继续探讨。