C++使用PoDoFo库处理PDF文件

📚 PoDoFo 简介

PoDoFo 是一个用 C++ 编写的自由开源库,专用于 读取、写入和操作 PDF 文件 。它适用于需要程序化处理 PDF 文件的应用程序,比如批量生成、修改、合并、提取元数据、绘图等。

🌟 核心特点

特性 说明
📄 PDF 读取 支持加载 PDF,读取内容流、页数、对象、元数据等
✍️ PDF 写入 可创建新 PDF,添加页、文本、图片、绘图操作
📌 PDF 编辑 可访问并修改 PDF 内部结构,如对象树
🔐 加密支持 支持基本加密(RC4、标准 PDF 加密),但支持有限
📦 轻量依赖 只依赖标准 C++ 和一些通用库(如 zlib、freetype、libjpeg)

🏗️ 技术基础

  • 语言:C++
  • 授权协议LGPL
  • 平台:Linux / Windows / macOS
  • 主要头文件#include <podofo/podofo.h>

📦 常见用途

  1. 批量生成 PDF 报告
  2. 批量提取页数、作者、标题等元数据
  3. 根据程序逻辑创建图形、表格型 PDF
  4. 读取 PDF 对象结构进行分析或修改

⚠️ 局限性

  • 不支持 PDF 渲染(不能直接显示或截图)
  • 对于复杂加密和 PDF/A 等标准支持有限
  • 文档和社区相对较小,不如 poppler 丰富

📌 官方地址

1、安装podofo

方式1:apt安装

bash 复制代码
sudo apt install libpodofo-dev
# 确认是否安装成功
dpkg -LA libpodofo-dev

出现类似这样的路径说明没问题。

方式2:源码安装

bash 复制代码
git clone https://github.com/podofo/podofo.git
cd podofo
mkdir build && cd build
cmake ..
make
sudo make install

2、示例代码

下面是一个使用PoDoFo库来过滤PDF文件的示例代码。假设我们有一个目录,里面包含多个PDF文件,我们想根据某些条件(比如页数)来过滤这些文件。

2.1 main.cpp

cpp 复制代码
#include <podofo/podofo.h>
#include <iostream>
#include <filesystem>
#include <vector>

namespace fs = std::filesystem;

void FilterPDFs(const std::string& directory, int minPages) {
    std::vector<std::string> filteredFiles;

    for (const auto& entry : fs::directory_iterator(directory)) {
        if (entry.is_regular_file() && entry.path().extension() == ".pdf") {
            try {
                PoDoFo::PdfMemDocument document;
                // std::cout<<entry.path().string()<<std::endl;
                document.Load(entry.path().c_str());
                // 获取PDF文件的页数
                int numPages = document.GetPageCount();

                if (numPages >= minPages) {
                    filteredFiles.push_back(entry.path().string());
                }
            } catch (const PoDoFo::PdfError& e) {
                std::cerr << "Error processing file " << entry.path().string() << ": " << e.what() << std::endl;
            }
        }
    }

    // 输出符合条件的PDF文件
    std::cout << "Filtered PDF files with at least " << minPages << " pages:" << std::endl;
    for (const auto& file : filteredFiles) {
        std::cout << file << std::endl;
    }
}

int main() {
    std::string directory = "/your/pdf/path/";  // 替换为你的PDF文件所在目录
    int minPages = 5;  // 过滤条件:至少包含5页的PDF文件

    FilterPDFs(directory, minPages);

    return 0;
}
  • PoDoFo库:这是一个C++库,用于创建、修改和解析PDF文件。在这个例子中,我们使用它来加载PDF文件并获取其页数。
  • std::filesystem:这是C++17引入的标准库,用于处理文件系统相关的操作,如遍历目录中的文件。
  • FilterPDFs函数:该函数接收一个目录路径和最小页数作为参数,遍历目录中的所有PDF文件,并根据页数进行过滤。
  • 异常处理 :在加载PDF文件时可能会出现错误(例如文件损坏),因此我们使用try-catch块来捕获并处理这些错误。

2.2 CMakeLists.txt

bash 复制代码
# 指定CMake的最低版本要求
cmake_minimum_required(VERSION 3.10)

# 定义项目名称和编程语言
project(PdfFilter VERSION 1.0 LANGUAGES CXX)

# 设置C++标准 (例如C++17)
set(CMAKE_CXX_STANDARD 17)
set(CMAKE_CXX_STANDARD_REQUIRED True)
set(CMAKE_CXX_EXTENSIONS False)

# podofo
find_library(PODOFO_LIBRARY podofo)

# 添加可执行文件
add_executable(${PROJECT_NAME} main.cpp)

# 如果有第三方库需要链接,可以使用target_link_libraries
target_link_libraries(${PROJECT_NAME} ${PODOFO_LIBRARY})

message("🐼 ${PODOFO_LIBRARY}")

2.3 编译运行

  • 编译
bash 复制代码
mkdir build
cd build
cmake ..
-- The CXX compiler identification is GNU 13.3.0
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Check for working CXX compiler: /usr/bin/c++ - skipped
-- Detecting CXX compile features
-- Detecting CXX compile features - done
🐼 /usr/lib/libpodofo.so
-- Configuring done (1.4s)
-- Generating done (0.0s)
-- Build files have been written to: /mnt/d/cppworkspace/PDFDemo/build
make
[ 50%] Building CXX object CMakeFiles/PdfFilter.dir/main.cpp.o
[100%] Linking CXX executable PdfFilter
[100%] Built target PdfFilter
  • 运行
bash 复制代码
./PdfFilter
  • 文件结构
bash 复制代码
.
|-- main.cpp
|-- CMakeLists.txt
|-- build
|   |-- CMakeCache.txt
|   |-- CMakeFiles
|   |-- Makefile
|   |-- PdfFilter
|   |-- cmake_install.cmake
相关推荐
菜鸟破茧计划30 分钟前
线段树:数据结构中的超级英雄
数据结构·c++·算法
iceslime1 小时前
算法设计与分析实验题-序列对齐
数据结构·c++·算法·算法设计与分析·序列对齐
geovindu1 小时前
vue3: pdf.js 2.16.105 using typescript
javascript·vue.js·typescript·pdf
莫轻言舞2 小时前
SpringBoot整合PDF导出功能
spring boot·后端·pdf
CodeWithMe2 小时前
【C/C++】C++中noexcept的妙用与性能提升
c语言·开发语言·c++
非著名架构师2 小时前
C++跨平台开发实践:深入解析与常见问题处理指南
开发语言·c++
SuperCandyXu2 小时前
leetcode0310. 最小高度树-medium
数据结构·c++·算法·leetcode
虾球xz2 小时前
游戏引擎学习第264天:将按钮添加到分析器
c++·学习·游戏引擎
YKPG3 小时前
C++学习-入门到精通-【5】类模板array和vector、异常捕获
java·c++·学习
南玖yy3 小时前
内存安全革命:工具、AI 与政策驱动的 C 语言转型之路
c语言·开发语言·c++·人工智能·安全·c++23·c++基础语法