Java把word转HTML格式

Java把word转HTML格式,两种方式

方式一:

maven引入依赖,pom.xml

XML 复制代码
<dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>

然后代码读取DOC内容,保存成HTML,然后再读取HTML。

(input.doc这个要输入完整路径,例如D:/input.doc)

java:

java 复制代码
Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));

方式二:

另外一种方式,先转换成DOCX,然后再提取HTML

pom.xml

XML 复制代码
<dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>

java:

java 复制代码
XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();
相关推荐
xiezhr1 天前
接口设计18条军规:写给那些半夜被“502”叫醒的人
java·api·restful
RainbowSea1 天前
12. LangChain4j + 向量数据库操作详细说明
java·langchain·ai编程
RainbowSea1 天前
11. LangChain4j + Tools(Function Calling)的使用详细说明
java·langchain·ai编程
考虑考虑1 天前
Jpa使用union all
java·spring boot·后端
用户3721574261351 天前
Java 实现 Excel 与 TXT 文本高效互转
java
浮游本尊1 天前
Java学习第22天 - 云原生与容器化
java
渣哥2 天前
原来 Java 里线程安全集合有这么多种
java
间彧2 天前
Spring Boot集成Spring Security完整指南
java
间彧2 天前
Spring Secutiy基本原理及工作流程
java
Java水解2 天前
JAVA经典面试题附答案(持续更新版)
java·后端·面试