PDF转换工具xpdf-tools-4.05

XPDF是一个开源的PDF查看、提取和转换工具套件,使用C++编写,支持多种操作系统,包括Linux、Unix、OS/2、Windows和Mac OS X‌1。XPDF不仅是一个PDF查看器,还包含多个实用工具,如文本提取器、图像转换器和HTML转换器等‌,内置工具包含pdftohtml、pdftotext、pdftopng、pdftops等,支持命令行调用,可实现自主开发程序的自动化。

下面以pdftotext为例,介绍一下将PDF转换为TXT的用法:

一、命令的规则

pdftotext version 4.05 [www.xpdfreader.com]
Copyright 1996-2024 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-layout : maintain original physical layout
-simple : simple one-column page layout
-simple2 : simple one-column page layout, version 2
-table : similar to -layout, but optimized for tables
-lineprinter : use strict fixed-pitch/height layout
-raw : keep strings in content stream order
-fixed <number> : assume fixed-pitch (or tabular) text
-linespacing <number> : fixed line spacing for LinePrinter mode
-clip : separate clipped text
-nodiag : discard diagonal text
-enc <string> : output text encoding name
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert a page break at the end of each page
-bom : insert a Unicode BOM at the start of the text file
-marginl <number> : left page margin
-marginr <number> : right page margin
-margint <number> : top page margin
-marginb <number> : bottom page margin
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-verbose : print per-page status information
-q : don't print any messages or errors
-cfg <string> : configuration file to use in place of .xpdfrc
-listencodings : list all available output text encodings
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information

二、参数解释

-layout 选项可以保持原始PDF的布局信息。

-enc UTF-8 指定输出文件的编码为UTF-8。

-f <num> : 指定要转换的起始页码。

-l <num> : 指定要转换的结束页码。

-enc <encoding> : 指定输出文件的编码格式,常用的有UTF-8等。

三、应用实例

  1. 转换PDF为TXT文档。

pdftotxt.exe <input.pdf> [<output.txt>]

其中 <input.pdf> 是源PDF文件的路径, <output.txt> 是输出的文本文件路径(可选)。

  1. 如果PDF包含中文,转换时需指定输出文件的编码格式。

pdftotext -enc UTF-8 input.pdf output.txt

  1. 如果需要保持原始PDF的布局,可以加上-layout 选项。

pdftotext -layout -enc UTF-8 input.pdf output.txt

  1. 指定转换页码的范围。

pdftotxt.exe -layout -enc UTF-8 -f 1 -l 2 input.pdf output.txt

将 input.pdf 的第1页和第2页转换为output.txt。

四、下载地址

PDF转换工具xpdf-tools-win-4.05

PDF转换工具xpdf-tools-linux-4.05

相关推荐
Kratzdisteln12 小时前
【MCM】(x= (N_A),y=(N_G),z=(p))RGB=T*
pdf
Kratzdisteln13 小时前
【1902】process_assignment_pdf()
大数据·人工智能·pdf
AAA_搬砖达人小郝16 小时前
Markdown 一键生成完美 Word(.docx) + PDF 的完整实战方案(JDK 8 环境亲测可用)
pdf·word
Kratzdisteln1 天前
【1902】process_handout_pdf()
服务器·windows·pdf
星月前端2 天前
springboot中使用LibreOffice实现word转pdf(还原程度很高,可以配置线程并发!)
spring boot·pdf·word
qq_171520352 天前
linux服务器springboot(docker)项目word转pdf中文乱码
linux·spring boot·docker·pdf·word
100分简历2 天前
无图标简洁大方的简历模板下载
人工智能·面试·职场和发展·pdf·编辑器
zyplayer-doc2 天前
文档增加访问密码设置,编辑器增加导航,登录日志增加IP归属地和浏览器信息展示,zyplayer-doc 2.5.9 发布啦!
人工智能·pdf·编辑器·飞书·开源软件·有道云笔记
appearappear2 天前
wkhtmltopdf把 html 原生转成成 pdf
前端·pdf·html
小咖自动剪辑2 天前
小学数学题混合生成器:一键定制PDF练习题/试卷
pdf