Python把word转为html(去水印版)

背景:

有一份word文档,但是通过 aspose.words 转化为图片后会有水印,虽然上下方的水印可以通过截取去掉,但是文本中间的logo水印无法去除,所以需要转为html进行去除

版本说明:aspose-words==24.2.0

输入:一个word的文件路径

输出:一个同名的html问价

复制代码
import aspose.words.saving as saving
import aspose.words as aw
from bs4 import BeautifulSoup
import re


def word_html(file_name):
    docx = aw.Document(file_name)
    save_options = saving.HtmlSaveOptions(aw.SaveFormat.HTML)
    save_options.export_images_as_base64 = True

    docx.save('tmp.html', save_options)

    html_content = open('tmp.html', "r", encoding="utf-8")
    soup = BeautifulSoup(html_content, features="lxml")
    # 删除指定的aspose的内容
    for tag in soup.find_all(style=re.compile("-aw-headerfooter-type:")):
        tag.extract()
    word_key_tag = soup.find("p", text=re.compile("Evaluation Only"))
    word_key_tag.extract()

    f = open(file_name.split('.')[0] + '.html', "w", encoding="utf-8")
    f.write(soup.prettify())
    f.close()

if __name__ == '__main__':
    
    word_html(file_name='1.docx')
    # 输出 1.html
相关推荐
2301_813599555 分钟前
SQL如何提取两个表的交集_INTERSECT与INNER JOIN结合
jvm·数据库·python
m0_6742946416 分钟前
mysql如何处理索引基数过低情况_mysql索引选择性分析
jvm·数据库·python
诸葛大钢铁22 分钟前
如何限制PDF的打印、复制编辑等操作?限制PDF打印编辑复制的三种方法
pdf·word·pdf打印限制·权限限制
qq_3422958231 分钟前
c++怎么获取文件的压缩比例信息_Windows压缩卷特性【详解】
jvm·数据库·python
weixin_4585801233 分钟前
CSS如何控制列表间距_使用padding-left与盒模型
jvm·数据库·python
m0_6178814234 分钟前
Tailwind CSS如何实现固定定位布局_使用fixed与z-index控制CSS层级
jvm·数据库·python
m0_674294641 小时前
Cgo 中正确处理 const char- 类型回调参数的实践方法
jvm·数据库·python
justjinji1 小时前
Chart.js 4 中实现基于数据极值的垂直线性渐变填充
jvm·数据库·python
迷藏4941 小时前
# 发散创新:基于Selenium的自动化测试框架重构与实战优化在当今快速迭代的软件开
java·python·selenium·测试工具·重构
天选之子1231 小时前
Django基本概念入门(一)
python·django·sqlite