PDF文档中图片解析

我们在做PDF文档解析时有时需要解析PDF文档中的图片数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。

下面我们来看看使用文档解析的方案来做PDF文档中的图片解析(使用pdfium库)。

以下为读取PDF中图片数据的相关代码:

cpp 复制代码
std::string strPdfPath = "pdf.pdf";
//初始化库
FPDF_InitLibrary();
//加载文档
FPDF_DOCUMENT document = FPDF_LoadDocument(strPdfPath.c_str(), nullptr);
if (!document)
{
    //load error
}
//获取页数
int page_count = FPDF_GetPageCount(document);
//此处我们只演示处理第一页
FPDF_PAGE page = FPDF_LoadPage(document, 0); // 加载第一页 (索引 0)
if (page)
{
    int objCount = FPDFPage_CountObjects(page); //获取当前页的对象数
    for (int i = 0; i < objCount; ++i)
    {
        FPDF_PAGEOBJECT obj = FPDFPage_GetObject(page, i);
        int nObjType = FPDFPageObj_GetType(obj);//对象类型
        switch (nObjType)
        {
            case FPDF_PAGEOBJ_UNKNOWN:
                break;
            case FPDF_PAGEOBJ_IMAGE:
            {
                // 获取图片对象
                FPDF_BITMAP bitmap = FPDFImageObj_GetBitmap(obj);
                //获取宽、高、stride数据
                int nWidth = FPDFBitmap_GetWidth(bitmap);
                int nHeight = FPDFBitmap_GetHeight(bitmap);
                int nStride = FPDFBitmap_GetStride(bitmap);
                //获取format
                /*
                * 0 FPDFBitmap_Unknown        Unknown or unsupported format.
                * 1 FPDFBitmap_Gray            Gray scale bitmap, one byte per pixel.
                * 2 FPDFBitmap_BGR            3 bytes per pixel, byte order: blue, green, red.
                * 3 FPDFBitmap_BGRx            4 bytes per pixel, byte order: blue, green, red, unused.
                * 4 FPDFBitmap_BGRA            4 bytes per pixel, byte order: blue, green, red, alpha.
                */
                //int nFormat = FPDFBitmap_GetFormat(bitmap); 
                //获取METADATA  这个结构中也包含图片大小、x/y-dpi、colorspace等数据
                FPDF_IMAGEOBJ_METADATA imgMetaData;     
                FPDFImageObj_GetImageMetadata(obj, page, &imgMetaData);
                
                //获取图片数据
                int nDataSize = nStride * nHeight;  
                std::vector<uint8_t> imageData(nDataSize);
                FPDFImageObj_GetImageDataRaw(obj, imageData.data(), nDataSize); 
                
                //保存图片
                //TODO:自行实现                                                                                                                                                                                                                                                                                                                                      
            }
            break;
            default:
                break;                               
        }    
    }
}
FPDF_ClosePage(page);

以上即为使用pdfium解析PDF文档中图片数据相关的代码。在实际测试中在word中插入的图片尺寸比转成PDF中的图片尺寸小。但是读到的图片尺寸跟PDF文档中是一致的。

相关推荐
晚风(●•σ )5 分钟前
C++语言程序设计——11 C语言风格输入/输出函数
c语言·开发语言·c++
凭栏落花侧1 小时前
打印机脱机状态应该怎么处理
windows
恒者走天下1 小时前
秋招落定,拿到满意的offer,怎么提高自己实际的开发能力,更好的融入团队
c++
天若有情6732 小时前
【c++】手撸C++ Promise:从零实现通用异步回调组件,支持链式调用+异常安全
开发语言·前端·javascript·c++·promise
学困昇2 小时前
C++中的异常
android·java·c++
q***57742 小时前
MySQL 实验1:Windows 环境下 MySQL5.5 安装与配置
windows·mysql·adb
q***31832 小时前
Windows安装Rust环境(详细教程)
开发语言·windows·rust
合作小小程序员小小店3 小时前
桌面安全开发,桌面二进制%恶意行为拦截查杀%系统安全开发3.0,基于c/c++语言,mfc,win32,ring3,dll,hook,inject,无数据库
c语言·开发语言·c++·安全·系统安全
Codeking__3 小时前
C++ 11 atomic 原子性操作
开发语言·c++
crescent_悦3 小时前
PTA L1-020 帅到没朋友 C++
数据结构·c++·算法