文件内容提取:Apache Tika 2.9.2

提取各种文件的文本内容,offic image zip 等等...

Apache Tika 2.9.2 、 jdk8

基础 pom.xml

xml 复制代码
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.9.2</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>2.9.2</version>
</dependency>

还需要用到的 pom.xml

xml 复制代码
<dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j-core</artifactId>
</dependency>
<dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.17.0</version>
</dependency>
<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.26.2</version>
</dependency>
  • 注意版本号,不然会出问题

java demo

java 复制代码
@Test
public void test() throws Exception {
    InputStream inputStream = Files.newInputStream(Paths.get("text.zip"));

    BodyContentHandler contentHandler = new BodyContentHandler(-1);
    Metadata metadata = new Metadata();
    ParseContext parseContext = new ParseContext();

    new AutoDetectParser()
            .parse(inputStream, contentHandler, metadata, parseContext);

	// 提取出来的内容
    System.out.println(contentHandler);
    System.out.println("-------------------------------------------");
    // 元数据信息
    String[] names = metadata.names();
    for (String name : names) {
        System.out.println(name + ":" + metadata.get(name));
    }
}
相关推荐
我的运维人生1 小时前
Apache服务器深度解析与实践应用:构建高效Web服务的基石
服务器·前端·apache·运维开发·技术共享
OceanBase数据库官方博客4 小时前
Apache Linkis + OceanBase:如何提升数据分析效率
apache·oceanbase·分布式数据库·生态工具
武子康1 天前
大数据-158 Apache Kylin 安装配置详解 集群模式启动
java·大数据·clickhouse·flink·kafka·apache·kylin
武子康1 天前
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
java·大数据·clickhouse·flink·apache·kylin
zhangphil4 天前
Windows环境Apache httpd 2.4 web服务器加载PHP8:Hello,world!
php·apache·httpd
邓草6 天前
帝国CMS系统开启https后,无法登陆后台的原因和解决方法
linux·php·apache
卓琢6 天前
(一)Web 网站服务之 Apache
前端·apache
微刻时光6 天前
Linux编译部署PHP环境
linux·开发语言·redis·git·php·apache·composer
卓琢6 天前
Web 网站服务(二):深入探索 Apache 的高级功能
前端·apache