文件内容提取:Apache Tika 2.9.2

提取各种文件的文本内容,offic image zip 等等...

Apache Tika 2.9.2 、 jdk8

基础 pom.xml

xml 复制代码
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.9.2</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>2.9.2</version>
</dependency>

还需要用到的 pom.xml

xml 复制代码
<dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j-core</artifactId>
</dependency>
<dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.17.0</version>
</dependency>
<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.26.2</version>
</dependency>
  • 注意版本号,不然会出问题

java demo

java 复制代码
@Test
public void test() throws Exception {
    InputStream inputStream = Files.newInputStream(Paths.get("text.zip"));

    BodyContentHandler contentHandler = new BodyContentHandler(-1);
    Metadata metadata = new Metadata();
    ParseContext parseContext = new ParseContext();

    new AutoDetectParser()
            .parse(inputStream, contentHandler, metadata, parseContext);

	// 提取出来的内容
    System.out.println(contentHandler);
    System.out.println("-------------------------------------------");
    // 元数据信息
    String[] names = metadata.names();
    for (String name : names) {
        System.out.println(name + ":" + metadata.get(name));
    }
}
相关推荐
大秦王多鱼5 小时前
Kafka 副本机制(包含AR、ISR、OSR、HW 和 LEO 介绍)
分布式·kafka·apache
天使day1 天前
Apache POI
apache
戴草帽的大z2 天前
在Ubuntu上使用Apache+MariaDB安装部署Nextcloud并修改默认存储路径
linux·经验分享·ubuntu·php·apache·mariadb·nextcloud
远方 hi3 天前
linux虚拟机连接不上Xshell
开发语言·php·apache
mqiqe4 天前
Apache Tika 详解
apache
鸠摩智首席音效师5 天前
如何解决 Apache Shutdown Unexpectedly 错误 ?
apache
大鳥5 天前
Apache Hive 聚合函数与 OVER 窗口函数:从基础到高级应用
hive·hadoop·apache
neter.asia6 天前
小程序获取微信运动步数
微信·小程序·apache
m0_548514776 天前
Centos7搭建PHP项目,环境(Apache+PHP7.4+Mysql5.7)
开发语言·php·apache
m0_748234526 天前
Apache Tomcat文件包含漏洞复现(详细教程)
java·tomcat·apache