Java把word转HTML格式

Java把word转HTML格式,两种方式

方式一:

maven引入依赖,pom.xml

XML 复制代码
<dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>

然后代码读取DOC内容,保存成HTML,然后再读取HTML。

(input.doc这个要输入完整路径,例如D:/input.doc)

java:

java 复制代码
Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));

方式二:

另外一种方式,先转换成DOCX,然后再提取HTML

pom.xml

XML 复制代码
<dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>

java:

java 复制代码
XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();
相关推荐
爱码驱动16 分钟前
Java多线程详解(5)
java·开发语言·多线程
橘子编程21 分钟前
计算机内存与缓存完全指南
java·计算机网络·spring·缓存
杰克尼21 分钟前
springCloud(day09-Elasticsearch02)
java·后端·spring·spring cloud
云烟成雨TD26 分钟前
Spring AI 1.x 系列【24】结构化输出 API
java·人工智能·spring
han_hanker26 分钟前
springboot 不推荐使用@Autowired怎么处理
java·spring boot·后端
最初的↘那颗心28 分钟前
LangChain4j入门:集成SpringBoot与核心概念全解析
java·spring boot·ai·大模型·langchain4j
计算机学姐29 分钟前
基于SpringBoot的高校实验室预约管理系统
java·spring boot·后端·mysql·spring·信息可视化·tomcat
九转成圣30 分钟前
实战记录:用 Java 拼接长图/网格图,我踩了哪些坑?
java·开发语言
lzhdim35 分钟前
SQL 入门 9:SQL 高级子查询:ANY、EXISTS 与多位置应用
java·开发语言·数据库·sql·mysql
杰克尼42 分钟前
springCloud_day08(Elasticsearch)
java·spring·spring cloud