word、pdf文档内容提取工具类

word、pdf文档内容提取工具类

1.依赖

xml 复制代码
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.5</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>5.2.5</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.5</version> <!-- 如果有 DOCX 相关 -->
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>3.0.5</version>
</dependency>

2.代码

java 复制代码
import cn.hutool.core.util.StrUtil;
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.Locale;
/**
* @Description 文档提取工具类
* @Date 2025/9/29 17:32
*/

public class DocumentTextExtractUtil {

    public static String extractText(InputStream inputStream, String fileType) throws IOException {
        if (inputStream == null) return "";
        if (StrUtil.isBlank(fileType)) throw new IllegalArgumentException("文件类型不能为空");


        String ft = normalizeFileType(fileType);
        byte[] data = toByteArray(inputStream);


        return switch (ft) {
            case "pdf" -> extractPdfText(data);
            case "docx" -> extractDocxText(data);
            case "doc" -> extractDocText(data);
            default -> new String(data, StandardCharsets.UTF_8);
        };
    }


    private static String normalizeFileType(String fileType) {
        String ft = fileType.trim().toLowerCase(Locale.ROOT);
        if (ft.startsWith(".")) ft = ft.substring(1);
        if (ft.contains("/")) {
            ft = ft.substring(ft.indexOf('/') + 1);
            if (ft.contains("+")) ft = ft.substring(0, ft.indexOf('+'));
        }
        return ft;
    }



    private static String extractPdfText(byte[] data) throws IOException {
        try (PDDocument doc = Loader.loadPDF(data)) { // 3.x 用 Loader.loadPDF
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setSortByPosition(true);
            String text = stripper.getText(doc);
            return text == null ? "" : text.trim();
        }
    }


    private static String extractDocxText(byte[] data) throws IOException {
        try (XWPFDocument doc = new XWPFDocument(new ByteArrayInputStream(data))) {
            StringBuilder sb = new StringBuilder();
            List<XWPFParagraph> paragraphs = doc.getParagraphs();
            for (XWPFParagraph p : paragraphs) {
                String t = p.getText();
                if (t != null && !t.isEmpty()) {
                    sb.append(t).append('\n');
                }
            }
            return sb.toString().trim();
        }
    }


    private static String extractDocText(byte[] data) throws IOException {
        try (HWPFDocument doc = new HWPFDocument(new ByteArrayInputStream(data))) {
            WordExtractor extractor = new WordExtractor(doc);
            String[] paragraphs = extractor.getParagraphText();
            StringBuilder sb = new StringBuilder();
            if (paragraphs != null) {
                for (String p : paragraphs) {
                    if (p == null) continue;
                    String clean = p.replaceAll("\\u0000", "").trim();
                    if (!clean.isEmpty()) sb.append(clean).append('\n');
                }
            }
            return sb.toString().trim();
        }
    }

    private static byte[] toByteArray(InputStream in) throws IOException {
        ByteArrayOutputStream baos = new ByteArrayOutputStream(8192);
        byte[] buf = new byte[8192];
        int r;
        while ((r = in.read(buf)) != -1) {
            baos.write(buf, 0, r);
        }
        return baos.toByteArray();
    }
}

3.如何使用

java 复制代码
try (InputStream textStream = new ByteArrayInputStream(content)) {
                String text = DocumentTextExtractUtil.extractText(textStream, fileType.toLowerCase());
            } catch (Exception e) {
                log.warn("文本提取失败,文件: {},类型: {}", fileName, fileType, e);
            }
相关推荐
:Concerto2 小时前
JavaSE 注解
java·开发语言·sprint
电商API_180079052473 小时前
第三方淘宝商品详情 API 全维度调用指南:从技术对接到生产落地
java·大数据·前端·数据库·人工智能·网络爬虫
一点程序3 小时前
基于SpringBoot的选课调查系统
java·spring boot·后端·选课调查系统
C雨后彩虹3 小时前
计算疫情扩散时间
java·数据结构·算法·华为·面试
2601_949809593 小时前
flutter_for_openharmony家庭相册app实战+我的Tab实现
java·javascript·flutter
vx_BS813303 小时前
【直接可用源码免费送】计算机毕业设计精选项目03574基于Python的网上商城管理系统设计与实现:Java/PHP/Python/C#小程序、单片机、成品+文档源码支持定制
java·python·课程设计
2601_949868363 小时前
Flutter for OpenHarmony 电子合同签署App实战 - 已签合同实现
java·开发语言·flutter
达文汐4 小时前
【困难】力扣算法题解析LeetCode332:重新安排行程
java·数据结构·经验分享·算法·leetcode·力扣
培风图南以星河揽胜4 小时前
Java版LeetCode热题100之零钱兑换:动态规划经典问题深度解析
java·leetcode·动态规划
启山智软4 小时前
【中大企业选择源码部署商城系统】
java·spring·商城开发