python实现word转html

目录

使用mammoth库

使用spire.doc库


使用mammoth库

mammoth库支持将word转为HTML和markdown格式的文件。

python 复制代码
import mammoth

def word_html(word_file):
    html_save_name = fr'{word_file.split('.')[0]}.html'
    with open(word_file, 'rb') as f:
        data = mammoth.convert_to_html(f)
    with open(html_save_name, 'w') as f:
        f.write(data.value)

使用spire.doc库

强大的word文件处理库,不太好的就是商业库转换出的文件有水印。

python 复制代码
from spire.doc import Document, FileFormat


def word_html(word_file):
    html_save_name = fr'{word_file.split('.')[0]}.html'
    doc = Document()
    doc.LoadFromFile(word_file)

    doc.SaveToFile(html_save_name, FileFormat.Html)
    doc.Close()
    with open(html_save_name, 'r', encoding='utf-8') as f:
        data = f.read().replace('Evaluation Warning: The document was created with Spire.Doc for Python.', '')  # 去掉商业库spire.doc生成的水印信息
    with open(html_save_name, 'w', encoding='utf-8') as f:
        f.write(data)
相关推荐
大神薯条老师41 分钟前
Python零基础入门到高手8.4节: 元组与列表的区别
开发语言·爬虫·python·深度学习·机器学习·数据分析
z人间防沉迷k42 分钟前
堆(Heap)
开发语言·数据结构·笔记·python·算法
小白学大数据1 小时前
Python爬虫如何应对网站的反爬加密策略?
开发语言·爬虫·python
Eric.Lee20211 小时前
Ubuntu shell指定conda的python环境启动脚本
python·ubuntu·conda·shell
芒果量化2 小时前
量化交易 - 网格交易策略实现与原理解析
python·算法·机器学习·金融
LetsonH2 小时前
Python工具链UV整合环境管理
开发语言·python·uv
欣然~2 小时前
基于深度学习进行运输系统优化
python·深度学习
SHIPKING3932 小时前
【HTML】个人博客页面
javascript·css·html
王有品2 小时前
Java 集合框架对比全解析:单列集合 vs 双列集合
java·windows·python
北漂老男孩2 小时前
ChromeDriver 技术生态与应用场景深度解析
java·爬虫·python·自动化