Java把word转HTML格式

Java把word转HTML格式,两种方式

方式一:

maven引入依赖,pom.xml

XML 复制代码
<dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>

然后代码读取DOC内容,保存成HTML,然后再读取HTML。

(input.doc这个要输入完整路径,例如D:/input.doc)

java:

java 复制代码
Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));

方式二:

另外一种方式,先转换成DOCX,然后再提取HTML

pom.xml

XML 复制代码
<dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>

java:

java 复制代码
XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();
相关推荐
lizz312 小时前
从 JUnit 深入理解 Java 注解与反射机制
java·开发语言·junit
编啊编程啊程5 小时前
JUC之AQS
java·开发语言·jvm·c++·kafka
孟婆来包棒棒糖~6 小时前
Maven快速入门
java·spring boot·spring·maven·intellij-idea
jingfeng5148 小时前
C++模板进阶
java·c++·算法
杨杨杨大侠9 小时前
附录 1:[特殊字符] Maven Central 发布完整指南:从零到成功部署
java·spring boot·maven
ahauedu9 小时前
AI资深 Java 研发专家系统解析Java 中常见的 Queue实现类
java·开发语言·中间件
小厂永远得不到的男人9 小时前
基于 Spring Validation 实现全局参数校验异常处理
java·后端·架构
计算机编程小咖10 小时前
《基于大数据的农产品交易数据分析与可视化系统》选题不当,毕业答辩可能直接挂科
java·大数据·hadoop·python·数据挖掘·数据分析·spark
艾莉丝努力练剑10 小时前
【C语言16天强化训练】从基础入门到进阶:Day 7
java·c语言·学习·算法