vs+qt5.0 使用poppler-qt5 操作库获取pdf所有文本输出到txt操作

先获取poppler库,编译出lib与dll,配置好依赖环境,获取某页所有文本:

QList<QString> PDFkitEngine::GetText(int nPageNum)

{

QList<QString> lstText;

Poppler::Page* pPage = NULL;

pPage = GetPage(nPageNum);

if (pPage == nullptr)

{

return lstText;

}

QList<Poppler::TextBox* > lstTexts = pPage->textList();

if (lstTexts.count() == 0)

{

return lstText;

}

for (int i = 0;i < lstTexts.count();i++)

{

lstText.append(lstTexts.at(i)->text());

}

return lstText;

}

输出到txt文本:

void PDFkitEngine::outputText(const QString& strfileName, QList<QString>& vecText)

{

QFile file(strfileName);

if (!file.open(QIODevice::WriteOnly | QIODevice::Text | QIODevice::Append))

{

return;

}

QTextStream textStream(&file);

for (auto& _info : vecText)

{

textStream << _info << endl;

}

file.close();

}

测试效果是可以将pdf文本全部读出来,并且成功的输出到文本文件,但是有点瑕疵是,pdf读出来的一行数据内容可能会分成2行或者多行,但是文本获取没有问题

相关推荐
其实秋天的枫2 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
米优3 小时前
qt+vlc实现国标客户端测试工具
qt·gb28181·vlc
开开心心_Every3 小时前
文字转语音无字数限,对接微软接口比付费爽
运维·服务器·人工智能·edge·pdf·paddle·segmentfault
米优4 小时前
qt+vlc实现解码h264/h265裸码流播放
开发语言·qt·vlc
无心水4 小时前
2、5分钟上手|PyPDF2 快速提取PDF文本
java·linux·分布式·后端·python·架构·pdf
小小码农Come on4 小时前
QT面试题总结
开发语言·qt
优化控制仿真模型5 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
特立独行的猫a5 小时前
HarmonyOS鸿蒙PC的QT应用开发:(二、开发环境搭建及第一个HelloWorld)
qt·华为·harmonyos·鸿蒙·鸿蒙pc
史迪仔01125 小时前
[QML] QT5和QT6 圆角的不同设置方法
前端·javascript·qt
SEO-狼术5 小时前
Aspose.PDF for .NET 24.5 Crack
pdf