python实现word转html

目录

使用mammoth库

使用spire.doc库


使用mammoth库

mammoth库支持将word转为HTML和markdown格式的文件。

python 复制代码
import mammoth

def word_html(word_file):
    html_save_name = fr'{word_file.split('.')[0]}.html'
    with open(word_file, 'rb') as f:
        data = mammoth.convert_to_html(f)
    with open(html_save_name, 'w') as f:
        f.write(data.value)

使用spire.doc库

强大的word文件处理库,不太好的就是商业库转换出的文件有水印。

python 复制代码
from spire.doc import Document, FileFormat


def word_html(word_file):
    html_save_name = fr'{word_file.split('.')[0]}.html'
    doc = Document()
    doc.LoadFromFile(word_file)

    doc.SaveToFile(html_save_name, FileFormat.Html)
    doc.Close()
    with open(html_save_name, 'r', encoding='utf-8') as f:
        data = f.read().replace('Evaluation Warning: The document was created with Spire.Doc for Python.', '')  # 去掉商业库spire.doc生成的水印信息
    with open(html_save_name, 'w', encoding='utf-8') as f:
        f.write(data)
相关推荐
92year2 小时前
用Google ADK从零搭一个能调工具的AI Agent:Python实操全过程
python·ai·mcp
woxihuan1234562 小时前
SQL删除数据时存在依赖关系_设置外键级联删除ON DELETE
jvm·数据库·python
七牛开发者2 小时前
HTML is the new Markdown:来自 Claude Code 团队的实践
前端·人工智能·语言模型·html
Jetev2 小时前
如何确定SQL字段是否为空_使用IS NULL与IS NOT NULL
jvm·数据库·python
蛐蛐蛐3 小时前
昇腾910B4上安装新版本CANN的正确流程
人工智能·python·昇腾
@大迁世界3 小时前
43.HTML 事件处理和 React 事件处理有什么区别?
前端·javascript·react.js·html·ecmascript
m0_702036533 小时前
mysql如何处理不走索引的OR查询_使用UNION ALL优化重写
jvm·数据库·python
2401_846339563 小时前
MySQL在云环境如何选择存储类型_SSD与高性能云盘配置建议
jvm·数据库·python
ZC跨境爬虫3 小时前
跟着 MDN 学 HTML day_38:(DocumentFragment 文档片段接口详解)
前端·javascript·ui·html·音视频
2601_957780844 小时前
Claude 4.6 对阵 GPT-5.4:2026 开发者大模型 API 选型深度解析
人工智能·python·gpt·ai·claude