文档向量化工具(一):Apache Tika介绍

Apache Tika是什么?能干什么?

Apache Tika是一个内容分析工具包。

该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。

所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。

基于Apache License 2.0

Apache Tika releases are available under the Apache License, Version 2.0

Apache Tika的安装

Apache Tika支持多种方式与业务集成。

Build artifacts说明

tika-core/target/tika-core-*.jar

Tika核心库。包含Tika的核心接口和类,但没有解析器实现。
tika-parsers/tika-parsers-standard/tika-parsers-standard-package/target/tika-parsers-standard-package-*.jar

Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika-parser-sqlite3-package和tika-parser-scientific-package科学包或其他解析器模块。

tika-app/target/tika-app-*.jar

Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。

tika-server/tika-server-standard/target/tika-server-standard-*.jar

Tika JAX-RS REST应用程序。这是一个Jetty web服务器,运行Tika REST服务。

tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar

Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境中部署。

tika-eval/tika-eval-app/target/tika-eval-app-*.jar

Tika评估模块。命令行工具,用于评估Tika的输出或比较两个不同版本的Tika或其他文本提取包的输出。

试用建议用app模式,命令行直接运行。下载地址:

https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar​​​​​​​

Apache Tika试用

java -jar tika-app-2.9.1.jar --gui

启动图形界面

直接拖拽一个文件进去

若文件较大,或内容复杂(包括图,表)等,处理过程会比较慢。

GUI会卡主,没关系,等一会就好了

可以切换不同模式显示输出内容。

​​​​​​​

相关推荐
源于花海1 小时前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
fly-977 小时前
LLM大模型微调入门Lora(LlamaFactory)
chatgpt·nlp
Shy9604188 小时前
Doc2Vec句子向量
python·语言模型
Leo.yuan10 小时前
数据量大Excel卡顿严重?选对报表工具提高10倍效率
数据库·数据分析·数据可视化·powerbi
海边散步的蜗牛15 小时前
学术论文写作丨机器学习与深度学习
人工智能·深度学习·机器学习·chatgpt·数据分析·ai写作
幂简集成16 小时前
如何一步步获得文心一言API密钥
dubbo·api·文心一言
智匠MindCraft Al17 小时前
GPT o1 模型使用及API调用
人工智能·gpt·ai·语言模型·chatgpt
数模竞赛Paid answer17 小时前
2023年MathorCup数学建模A题量子计算机在信用评分卡组合优化中的应用解题全过程文档加程序
数学建模·数据分析·mathorcup
康谋自动驾驶19 小时前
康谋分享 | 确保AD/ADAS系统的安全:避免数据泛滥的关键
数据分析·自动驾驶·汽车
沉下心来学鲁班1 天前
欺诈文本分类检测(十八):基于llama.cpp+CPU推理
人工智能·语言模型·分类·cpu·llama.cpp