Java把word转HTML格式

Java把word转HTML格式,两种方式

方式一:

maven引入依赖,pom.xml

XML 复制代码
<dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>

然后代码读取DOC内容,保存成HTML,然后再读取HTML。

(input.doc这个要输入完整路径,例如D:/input.doc)

java:

java 复制代码
Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));

方式二:

另外一种方式,先转换成DOCX,然后再提取HTML

pom.xml

XML 复制代码
<dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>

java:

java 复制代码
XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();
相关推荐
阿杰 AJie2 分钟前
Token 管理工具
java·spring
Mars酱6 分钟前
1分钟了解响应式编程 | 合适的架构调整
java·后端·响应式编程
goodlook012318 分钟前
监控平台搭建-日志-springboot直接推送loki篇(九)
java·spring boot·后端·grafana
lfwh18 分钟前
Java 中基于 DBSCAN 算法的车辆交汇点计算实现详解
java·开发语言·算法
独自破碎E41 分钟前
PO、VO、BO、DTO、DAO、POJO有什么区别?
java
czlczl2002092542 分钟前
从 SSO 登录到跨系统资源访问:OAuth2 全链路交互详解
java·spring boot·后端·spring·架构
茶本无香1 小时前
单例模式深度解析:饿汉式与懒汉式的实现与选择
java·单例模式
爬山算法1 小时前
Hibernate(29)什么是Hibernate的连接池?
java·后端·hibernate
Fuly10241 小时前
软件研发类项目流程
java