PDF转换工具xpdf-tools-4.05

XPDF是一个开源的PDF查看、提取和转换工具套件,使用C++编写,支持多种操作系统,包括Linux、Unix、OS/2、Windows和Mac OS X‌1。XPDF不仅是一个PDF查看器,还包含多个实用工具,如文本提取器、图像转换器和HTML转换器等‌,内置工具包含pdftohtml、pdftotext、pdftopng、pdftops等,支持命令行调用,可实现自主开发程序的自动化。

下面以pdftotext为例,介绍一下将PDF转换为TXT的用法:

一、命令的规则

pdftotext version 4.05 [www.xpdfreader.com]
Copyright 1996-2024 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-layout : maintain original physical layout
-simple : simple one-column page layout
-simple2 : simple one-column page layout, version 2
-table : similar to -layout, but optimized for tables
-lineprinter : use strict fixed-pitch/height layout
-raw : keep strings in content stream order
-fixed <number> : assume fixed-pitch (or tabular) text
-linespacing <number> : fixed line spacing for LinePrinter mode
-clip : separate clipped text
-nodiag : discard diagonal text
-enc <string> : output text encoding name
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert a page break at the end of each page
-bom : insert a Unicode BOM at the start of the text file
-marginl <number> : left page margin
-marginr <number> : right page margin
-margint <number> : top page margin
-marginb <number> : bottom page margin
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-verbose : print per-page status information
-q : don't print any messages or errors
-cfg <string> : configuration file to use in place of .xpdfrc
-listencodings : list all available output text encodings
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information

二、参数解释

-layout 选项可以保持原始PDF的布局信息。

-enc UTF-8 指定输出文件的编码为UTF-8。

-f <num> : 指定要转换的起始页码。

-l <num> : 指定要转换的结束页码。

-enc <encoding> : 指定输出文件的编码格式,常用的有UTF-8等。

三、应用实例

  1. 转换PDF为TXT文档。

pdftotxt.exe <input.pdf> [<output.txt>]

其中 <input.pdf> 是源PDF文件的路径, <output.txt> 是输出的文本文件路径(可选)。

  1. 如果PDF包含中文,转换时需指定输出文件的编码格式。

pdftotext -enc UTF-8 input.pdf output.txt

  1. 如果需要保持原始PDF的布局,可以加上-layout 选项。

pdftotext -layout -enc UTF-8 input.pdf output.txt

  1. 指定转换页码的范围。

pdftotxt.exe -layout -enc UTF-8 -f 1 -l 2 input.pdf output.txt

将 input.pdf 的第1页和第2页转换为output.txt。

四、下载地址

PDF转换工具xpdf-tools-win-4.05

PDF转换工具xpdf-tools-linux-4.05

相关推荐
Shi_haoliu12 小时前
前端vue2-完全前端生成pdf->pdf-lib,html2canvas+jspdf,原生打印,三种方式(打印带有echarts图的pdf)
前端·javascript·vue.js·git·pdf·echarts·html5
二壳12 小时前
将网页带格式转化为PDF
pdf
辣香牛肉面16 小时前
PDF电子发票数据提取至Excel
pdf·发票提取
CodeCraft Studio16 小时前
PDF处理控件Aspose.PDF教程:压缩 PDF 文档的完整指南
开发语言·python·pdf
IDRSolutions_CN16 小时前
如何将 PDF 文件中的文本提取为 YAML(教程)
java·经验分享·pdf·软件工程·团队开发
SEO-狼术16 小时前
Clarity and Context to PDF Files
pdf
zzc92116 小时前
PPT连同备注页(演讲者模式)一块转为PDF
pdf
課代表17 小时前
Acrobat Reader 无法在 Windows 11及10 中打开的5种修复方法
windows·adobe·pdf·adobe acrobat reader·修复·dc
yzhSWJ18 小时前
Excel 操作 转图片,转pdf等
java·pdf·excel
元拓数智1 天前
基于PDF流式渲染的Word文档在线预览技术
pdf·在线预览·流式渲染