Java把word转HTML格式

Java把word转HTML格式,两种方式

方式一:

maven引入依赖,pom.xml

XML 复制代码
<dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>

然后代码读取DOC内容,保存成HTML,然后再读取HTML。

(input.doc这个要输入完整路径,例如D:/input.doc)

java:

java 复制代码
Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));

方式二:

另外一种方式,先转换成DOCX,然后再提取HTML

pom.xml

XML 复制代码
<dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>

java:

java 复制代码
XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();
相关推荐
呱牛do it9 分钟前
企业级门户网站设计与实现:基于SpringBoot + Vue3的全栈解决方案(Day 7)
java·vue
NE_STOP16 分钟前
Redis--SDS字符串与集合的底层实现原理
java
直奔標竿20 分钟前
Java开发者AI转型第二十二课!Spring AI 个人知识库实战(一)——架构搭建与核心契约落地
java·人工智能·后端·spring·架构
身如柳絮随风扬22 分钟前
深入理解Java IO与NIO的区别:从BIO到NIO的演进
java·nio
A-Jie-Y1 小时前
JAVA设计模式-抽象工厂模式
java·设计模式
@insist1231 小时前
信息安全工程师-密码学专题(下):构建可信网络空间的核心机制
java·大数据·密码学·软考·信息安全工程师·软件水平考试
摇滚侠1 小时前
Java 零基础全套视频教程,面向对象(高级),笔记 105-120
java·开发语言·笔记
叶落阁主1 小时前
Spring Boot 4 实战:Jackson 2.x 升级到 3.x 踩坑全记录
java·后端·架构
布吉岛的石头1 小时前
Java 中高级面试:JVM 内存模型 + GC 算法高频题总结
java·jvm·面试
2301_792674862 小时前
java学习(day32)
java