Java中正则表达式提取PDF内容

使用pdfbox组件,完成pdf文件中内容的提取。具体操作如下:

pom.xml引入坐标:

java 复制代码
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.29</version>
        </dependency>

新建PdfRegexExtractUtil.java类

java 复制代码
import java.io.IOException;
import java.math.BigDecimal;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import lombok.extern.slf4j.Slf4j;

/**
 * PDF正则表达式提取工具类
 * 用于从PDF文档中通过正则表达式提取特定字段的数值
 */
@Slf4j
public class PdfRegexExtractUtil {

    /**
     * 通过正则表达式提取字段值
     * <p>
     * 提取逻辑:
     * 1. 先提取整个PDF的文本内容
     * 2. 使用正则表达式匹配字段名和对应的数值
     * 3. 数值格式支持:正负数、千位分隔符(逗号或空格)、小数点后2位
     *
     * @param document  PDF文档
     * @param fieldName 字段名称(用于日志)
     * @param fieldLabel 字段标签(PDF中的实际文本,用于正则匹配)
     * @return 提取的数值,如果未找到返回null
     */
    private static BigDecimal extractFieldValue(PDDocument document, String fieldName, String fieldLabel) {
        try {
            // 提取整个PDF的文本内容
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setSortByPosition(true);
            String fullText = stripper.getText(document);

            if (fullText == null || fullText.isEmpty()) {
                log.warn("字段 {} 的PDF文本内容为空", fieldName);
                return null;
            }

            log.debug("字段 {} 的PDF文本内容长度: {}", fieldName, fullText.length());

            // 构建正则表达式:匹配字段名后面的数值
            // 模式:字段名 + 可能的空白字符 + 分隔符(|) + 可能的空白字符 + 数值
            // 数值格式:[-]?数字[千位分隔符]数字[.小数]
            // 例如:Income | 2,670.61 或 Expenses | -1,414.02
            String escapedLabel = Pattern.quote(fieldLabel);
            // 匹配字段名后可能的分隔符(|、空格、制表符等)和数值
            // 使用更宽松的匹配,允许字段名和数值之间有各种空白字符和分隔符
            String patternStr = escapedLabel + "[\\s|\\t]*([-]?\\d{1,3}(?:[,\\s]?\\d{3})*(?:\\.\\d{1,2})?)";
            Pattern pattern = Pattern.compile(patternStr, Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);
            Matcher matcher = pattern.matcher(fullText);

            if (matcher.find()) {
                String valueStr = matcher.group(1).replaceAll("[,\\s]", "");
                try {
                    BigDecimal value = new BigDecimal(valueStr);
                    log.info("成功提取字段 {} 的值: {} (原始匹配: {})", fieldName, value, matcher.group(0));
                    return value;
                } catch (NumberFormatException e) {
                    log.warn("字段 {} 的数值格式不正确: {}", fieldName, valueStr);
                }
            } else {
                log.warn("字段 {} 在PDF中未找到匹配的数值 (字段标签: {})", fieldName, fieldLabel);
                // 输出部分文本内容用于调试
                if (fullText.length() > 500) {
                    log.debug("PDF文本前500字符: {}", fullText.substring(0, 500));
                } else {
                    log.debug("PDF完整文本: {}", fullText);
                }
            }

        } catch (IOException e) {
            log.error("提取字段 {} 的值时发生IO异常: {}", fieldName, e.getMessage(), e);
        } catch (Exception e) {
            log.error("提取字段 {} 的值时发生异常: {}", fieldName, e.getMessage(), e);
        }

        return null;
    }

 

    
}

调用:

java 复制代码
PDDocument document = PDDocument.load(pdfFile.getInputStream());
BigDecimal income = PdfRegexExtractUtil.extractFieldValue(document, "Income", "Income");

pdfFile来自前端上传的PDF文件

这样就可以获取到PDF文件中,名称为Income对应的值,PDF文件如下:

相关推荐
战族狼魂2 小时前
Python 完整实现 BCrypt GUI 工具
java·前端·python
Overt0p2 小时前
抽奖系统(7)
java·开发语言·spring boot·redis·tomcat·rabbitmq
Dylan的码园2 小时前
深入浅出Java排序:从基础算法到实战优化(上)
java·数据结构·算法
J_liaty2 小时前
前后端跨域处理全指南:Java后端+Vue前端完整解决方案
java·前端·vue.js·spring boot·后端
颜淡慕潇2 小时前
深度解读 Spring Boot 3.5.9— 工程视角的稳健演进与价值释放
java·spring boot·后端·spring
夜郎king2 小时前
一文掌握:Java项目目录结构文档自动化生成
java·自动化·java原生目录生成
appearappear2 小时前
IntelliJ IDEA 2025.3.1 中 Export → SQL Updates 不带 WHERE 的真实原因与解决方案(OpenAI 协助整理)
java·数据库
玄〤2 小时前
黑马点评中的分布式锁设计与实现(Redis + Redisson)
java·数据库·redis·笔记·分布式·后端
码界奇点2 小时前
基于SpringBoot与Shiro的细粒度动态权限管理系统设计与实现
java·spring boot·后端·spring·毕业设计·源代码管理