解锁万能文件内容分析工具：Apache Tika

01 引言

在日常工作中，你是否曾为这些场景头疼过？

堆积如山的PDF、Word、Excel文档，如何快速提取关键信息？
用户上传的文件五花八门，如何自动识别类型并安全处理？
构建搜索引擎时，如何让系统"读懂"各种文件的内容？

Apache Tika 正是为解决这些难题而生！这款强大的内容检测与提取工具，堪称企业数据处理流程中的隐形功臣。

我们一起来解锁一下吧！

02 Apache Tika是什么

Apache Tika是一个内容分析工具包。工具包可检测并提取来自一千多种不同文件类型（如 PPT、XLS 和 PDF）的元数据和文本。所有这些文件类型都可以通过一个界面进行解析，这使得 Tika 可用于搜索引擎索引、内容分析、翻译等等。其核心价值在于："让应用程序不再关心文件格式的复杂性"。

核心能力

格式检测（MIME Type Detection）：准确判断文件类型。
内容提取（Content Extraction）：从文件中剥离文本内容。
元数据提取（Metadata Extraction）：获取文件的元数据信息。

03 最佳实践

依赖准备：

xml 复制代码

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>3.2.0</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>3.2.0</version>
</dependency>

3.1 格式检测

当我们无法判断文件的MIME，用Tika就对了，他会告诉你答案：

java 复制代码

@Test
void test01() throws Exception {
    Tika tika = new Tika();
    String detect = tika.detect(ResourceUtils.getFile("classpath:file/a.txt"));
    System.out.println("a.txt的MIME类型：" + detect);

    String detect2 = tika.detect(ResourceUtils.getFile("classpath:file/collectFile.zip"));
    System.out.println("collectFile.zip的MIME类型：" + detect2);

    String detect3 = tika.detect(ResourceUtils.getFile("classpath:file/fp.pdf"));
    System.out.println("fp.pdf的MIME类型：" + detect3);
}

执行结果

3.2 内容提取

不用关心文件的格式，可以自动提取内容

java 复制代码

@Test
void test02() throws Exception {
    Tika tika = new Tika();
    String text = tika.parseToString(ResourceUtils.getFile("classpath:file/a.txt"));
    System.out.println("提取的内容1：\n" + text);

    String text2 = tika.parseToString(ResourceUtils.getFile("classpath:file/fp.pdf"));
    System.out.println("提取的内容2：\n" + text2);
}

执行结果

3.3 元数据提取

一个文件的元数据都有啥，我们一起瞅瞅：

java 复制代码

@Test
void test04() throws Exception {
    File file = ResourceUtils.getFile("classpath:file/collectFile.zip");
    // 方法1：
    Tika tika = new Tika();
    Metadata metadata = new Metadata();
    tika.parse(file, metadata);
    for (String name : metadata.names()) {
        System.out.println(name + " → " + metadata.get(name));
    }
    
    System.out.println("-----------------方法分割线--------------");

    // 方法2：
    BodyContentHandler handler = new BodyContentHandler();
    try (FileInputStream stream = new FileInputStream(file)) {
        new AutoDetectParser().parse(stream, handler, metadata);
        for (String name : metadata.names()) {
            System.out.println(name + " → " + metadata.get(name));
        }
    }
}

执行结果

3.4 敏感词检测

敏感词的检测用在文本内容检测，而文件无法直接检测，需要借助Tika提取内容完成敏感词的检测等。

java 复制代码

@Test
void test05() throws Exception {
    // 模拟敏感词库
    List<String> SENSITIVE_WORDS = List.of("机密", "绝密", "禁止外传");

    File file = ResourceUtils.getFile("classpath:file/a.txt");
    Tika tika = new Tika();
    String content = tika.parseToString(file);
    if (SENSITIVE_WORDS.stream().anyMatch(content::contains)) {
        System.out.println("包含敏感词");
    }    
}

此案例的敏感词检测，是通过提取全部内容检测，只能适用于文件内容相对较少的情况下。如果文件内容过多就可能会出现性能问题。

我们需要稍加改造，需要借助的关键类：org.apache.tika.sax.ContentHandlerDecorator，通过流的方式针对文件内容一部分一部分检测。

java 复制代码

@Test
void test06() throws Exception {
    // 模拟敏感词库
    List<String> SENSITIVE_WORDS = List.of("机密", "绝密", "禁止外传");
    File file = ResourceUtils.getFile("classpath:file/a.txt");

    Metadata metadata = new Metadata();
    ParseContext parseContext = new ParseContext();
    try (FileInputStream stream = new FileInputStream(file)) {
        new AutoDetectParser().parse(stream, new ContentHandlerDecorator(){
            @Override
            public void characters(char[] ch, int start, int length) throws SAXException {
                String text = new String(ch, start, length);
                if (SENSITIVE_WORDS.stream().anyMatch(text::contains)) {
                    System.out.println("包含敏感词");
                }
            }
        }, metadata, parseContext);
    }
}

04 Spring Boot集成

工具的使用最终还是要应用到项目中，看看怎么集成的。

4.1 Bean配置

java 复制代码

// Spring Boot配置类
@Configuration
public class TikaConfig {
    
    @Bean
    public Tika tikaInstance() {
        return new Tika(TikaConfig.getDefaultConfig());
    }
}

Tika的配置，也可以通过配置文件定义。

org.apache.tika.config.TikaConfig的配置是无法通过Java去赋值的，只能通过外部的配置文件去配置。

如配置文件的名称为：tika-config.xml

xml 复制代码

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <parsers>
        <parser class="org.apache.tika.parser.DefaultParser"/>
        <parser class="org.apache.tika.parser.ocr.TesseractOCRParser" />
    </parsers>
</properties>

加载自定义配置：

java 复制代码

TikaConfig config = new TikaConfig(ResourceUtils.getFile("classpath:tika-config.xml"));
// TikaConfig config = new TikaConfig(this.getClass().getResourceAsStream("tika-config.xml"));
Tika tika = new Tika(config);

4.2 文件解析服务

java 复制代码

// 文件解析服务
@Service
public class FileTikaService {
    
    @Autowired
    private Tika tika;
    
    @Value("${tika.maxFileSize:10485760}") // 默认10MB
    private long maxFileSize;
    
    public JsonResult FileTika(MultipartFile file) throws Exception {
        // 校验文件大小
        if (file.getSize() > maxFileSize) {
            throw new IllegalArgumentException("文件超过大小限制");
        }
        
        Metadata metadata = new Metadata();
        String content = tika.parseToString(file.getInputStream(), metadata);
        // 其他业务 ......
        
        return new JsonResult(true, data); 
    }
}

05 最佳实践建议

5.1 解析策略的选择

5.2 监控关键指标

解析成功率（按文件类型统计）
平均解析时间分布
内存消耗峰值
异常文件类型TOP10

06 小结

Apache Tika + Java 的组合，让复杂文件解析变得异常简单。无论是构建文档管理系统、内容搜索引擎还是安全审查平台，只需几行核心代码即可解锁跨格式数据处理能力。

但是Apache Tika又有自己的局限性，如ocr默认集成的是tess4j(tika-parser-ocr-module)，识别的效率极低。对于音频和图片的部分处理和预期结果不符。