java 解析 PDF OFD 发票 部分文字缺失

1、pdfbox

复制代码
https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox
到这里用最新的版本

最近碰到发票各式各样,千奇百怪:记录其中一个

解析出来是:缺少一个通字

发票好几处都缺少文字,解析出来的是 一个 圆点

原因:

复制代码
为了兼容其他代码,我用的不是最新版本:我用的是这个版本:
 <dependency>
      <groupId>org.apache.pdfbox</groupId>
      <artifactId>pdfbox</artifactId>
      <version>3.0.0-RC1</version>
    </dependency>

改成了最新版 :

<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>3.0.2</version>
</dependency>

解析的就没问题了

2、spire 解析是没问题的,但是免费用户有10页限制

3、tabula

我用的最新版,解析不出来

复制代码
<dependency>
    <groupId>technology.tabula</groupId>
    <artifactId>tabula</artifactId>
    <version>1.0.5</version>
    <exclusions>
        <exclusion>
            <artifactId>slf4j-simple</artifactId>
            <groupId>org.slf4j</groupId>
        </exclusion>
    </exclusions>
</dependency>
复制代码
解析出来是这样的   名    称:内蒙古交\r集团
相关推荐
yqwang_cn12 分钟前
使用Python提取PDF大纲(书签)完整指南
windows·python·pdf
悦人楼31 分钟前
深入理解Java集合框架:核心接口、实现类与实战选择
java·windows·python
zhysunny1 小时前
Python从入门到精通计划Day07: Python数据卷轴术:文件魔法与防御结界全指南
开发语言·python
花开富贵ii1 小时前
代码随想录算法训练营第三十八天、三十九天|动态规划part11、12
java·数据结构·算法·leetcode·动态规划
##学无止境##2 小时前
深入剖析Java线程:从基础到实战(上)
java·开发语言·redis
大雷神4 小时前
站在JS的角度,看鸿蒙中的ArkTs
开发语言·前端·javascript·harmonyos
Bdygsl5 小时前
前端开发:JavaScript(3)—— 选择与循环
开发语言·javascript·ecmascript
HW-BASE6 小时前
《C语言》指针练习题--1
c语言·开发语言·单片机·算法·c
max5006007 小时前
基于深度学习的污水新冠RNA测序数据分析系统
开发语言·人工智能·python·深度学习·神经网络
麦兜*7 小时前
Spring Boot整合PyTorch Pruning工具链,模型瘦身手术
java·pytorch·spring boot·后端·spring cloud·ai编程·剪枝