Java把word转HTML格式,两种方式
方式一:
maven引入依赖,pom.xml
            
            
              XML
              
              
            
          
          <dependency>
  <groupId>e-iceblue</groupId>
  <artifactId>spire.office.free</artifactId>
  <version>5.3.1</version>
</dependency>
        然后代码读取DOC内容,保存成HTML,然后再读取HTML。
(input.doc这个要输入完整路径,例如D:/input.doc)
java:
            
            
              java
              
              
            
          
          Document doc = new Document();
doc.loadFromFile("input.doc", FileFormat.Doc);
doc.saveToFile("output.html", FileFormat.Html);
String htmlContent = Files.readString(Paths.get("output.html"));
        方式二:
另外一种方式,先转换成DOCX,然后再提取HTML
pom.xml
            
            
              XML
              
              
            
          
          <dependencies>
    <!-- Apache POI -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.2</version> <!-- 使用最新版本或适合你项目的版本 -->
    </dependency>
</dependencies>
        java:
            
            
              java
              
              
            
          
          XWPFDocument docx = new XWPFDocument(new FileInputStream("input.doc"));
ByteArrayOutputStream htmlStream = new ByteArrayOutputStream();
Document.save(htmlStream, SaveFormat.HTML);
String html = htmlStream.toString();