描述:
最近在工作中遇到 pdf转换为html,找了很多个库,最后发现两个好用的pdf转html的库,特此记录
1.方法一:使用Spire.PDF for Python
Spire.PDF是收费的,但是pdf转换为html的效果是最好的
bash
pip install Spire.PDF
python
from spire.pdf.common import *
from spire.pdf import *
# spire.pdf pdf转换为html
def spire_convert_html(pdf_path, html_path):
try:
# 创建一个 PdfDocument 类的对象
doc = PdfDocument()
# 加载一个 PDF 文档
doc.LoadFromFile(pdf_path)
# 将文档转换为 HTML 格式并保存
doc.SaveToFile(html_path, FileFormat.HTML)
doc.Close()
except Exception as e:
print(e)
2.方法二:使用PyMuPDF(fitz) pdf转换为html
PyMuPDF是开源免费的,效果还可以
tqdm是Python进度条库,若不用可以不安装该库
bash
pip install PyMuPDF
pip install tqdm
python
import fitz
from tqdm import tqdm
# PyMuPDF(fitz) pdf转换为html
def fitz_convert_html(pdf_path, html_path):
try:
doc = fitz.open(pdf_path)
html_content = ("<!DOCTYPE html><html lang=\"zh-CN\"><head><meta "
"charset=\"UTF-8\"><title>Title</title></head><body>")
# tqdm是Python进度条库, 若不用: for page in doc
for page in tqdm(doc):
html_content += page.get_text('html')
html_content += "</body></html>"
# 保存html
with open(html_path, 'w', encoding='utf8') as f:
f.write(html_content)
except Exception as e:
print(e)