PDF转换工具xpdf-tools-4.05

XPDF是一个开源的PDF查看、提取和转换工具套件,使用C++编写,支持多种操作系统,包括Linux、Unix、OS/2、Windows和Mac OS X‌1。XPDF不仅是一个PDF查看器,还包含多个实用工具,如文本提取器、图像转换器和HTML转换器等‌,内置工具包含pdftohtml、pdftotext、pdftopng、pdftops等,支持命令行调用,可实现自主开发程序的自动化。

下面以pdftotext为例,介绍一下将PDF转换为TXT的用法:

一、命令的规则

pdftotext version 4.05 [www.xpdfreader.com]
Copyright 1996-2024 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-layout : maintain original physical layout
-simple : simple one-column page layout
-simple2 : simple one-column page layout, version 2
-table : similar to -layout, but optimized for tables
-lineprinter : use strict fixed-pitch/height layout
-raw : keep strings in content stream order
-fixed <number> : assume fixed-pitch (or tabular) text
-linespacing <number> : fixed line spacing for LinePrinter mode
-clip : separate clipped text
-nodiag : discard diagonal text
-enc <string> : output text encoding name
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert a page break at the end of each page
-bom : insert a Unicode BOM at the start of the text file
-marginl <number> : left page margin
-marginr <number> : right page margin
-margint <number> : top page margin
-marginb <number> : bottom page margin
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-verbose : print per-page status information
-q : don't print any messages or errors
-cfg <string> : configuration file to use in place of .xpdfrc
-listencodings : list all available output text encodings
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information

二、参数解释

-layout 选项可以保持原始PDF的布局信息。

-enc UTF-8 指定输出文件的编码为UTF-8。

-f <num> : 指定要转换的起始页码。

-l <num> : 指定要转换的结束页码。

-enc <encoding> : 指定输出文件的编码格式,常用的有UTF-8等。

三、应用实例

  1. 转换PDF为TXT文档。

pdftotxt.exe <input.pdf> [<output.txt>]

其中 <input.pdf> 是源PDF文件的路径, <output.txt> 是输出的文本文件路径(可选)。

  1. 如果PDF包含中文,转换时需指定输出文件的编码格式。

pdftotext -enc UTF-8 input.pdf output.txt

  1. 如果需要保持原始PDF的布局,可以加上-layout 选项。

pdftotext -layout -enc UTF-8 input.pdf output.txt

  1. 指定转换页码的范围。

pdftotxt.exe -layout -enc UTF-8 -f 1 -l 2 input.pdf output.txt

将 input.pdf 的第1页和第2页转换为output.txt。

四、下载地址

PDF转换工具xpdf-tools-win-4.05

PDF转换工具xpdf-tools-linux-4.05

相关推荐
开开心心就好6 小时前
快速搜索与管理PDF文档的专业工具
java·运维·windows·pdf·自动化·excel·音视频
阿幸软件杂货间16 小时前
PDF24 Tools:涵盖20+种PDF工具,简单高效PDF工具箱,支持一键编辑/转换/合并
pdf
企鹅侠客16 小时前
写了个脚本将pdf转markdown
python·pdf·pdf转markdown
碳酸的唐16 小时前
PDF智能解析与知识挖掘:基于pdfminer.six的全栈实现
python·pdf·js
dudly1 天前
Python全流程开发实战:基于IMAP协议安全下载个人Gmail邮箱内所有PDF附件
python·安全·小程序·pdf·个人开发
跑马的程序员2 天前
word模板填充导出-(支持word导出、pdf导出)
pdf·word
开开心心就好2 天前
无限制文本转语音解决方案
开发语言·人工智能·macos·微信·pdf·c#·语音识别
Dxy12393102162 天前
python如何word转pdf
python·pdf·word
芭拉拉小魔仙2 天前
【Vue3/Typescript】合并多个pdf并预览打印,兼容低版本浏览器
javascript·typescript·pdf