文档向量化工具(一):Apache Tika介绍

Apache Tika是什么?能干什么?

Apache Tika是一个内容分析工具包。

该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。

所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。

基于Apache License 2.0

Apache Tika releases are available under the Apache License, Version 2.0

Apache Tika的安装

Apache Tika支持多种方式与业务集成。

Build artifacts说明

tika-core/target/tika-core-*.jar

Tika核心库。包含Tika的核心接口和类,但没有解析器实现。
tika-parsers/tika-parsers-standard/tika-parsers-standard-package/target/tika-parsers-standard-package-*.jar

Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika-parser-sqlite3-package和tika-parser-scientific-package科学包或其他解析器模块。

tika-app/target/tika-app-*.jar

Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。

tika-server/tika-server-standard/target/tika-server-standard-*.jar

Tika JAX-RS REST应用程序。这是一个Jetty web服务器,运行Tika REST服务。

tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar

Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境中部署。

tika-eval/tika-eval-app/target/tika-eval-app-*.jar

Tika评估模块。命令行工具,用于评估Tika的输出或比较两个不同版本的Tika或其他文本提取包的输出。

试用建议用app模式,命令行直接运行。下载地址:

https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar​​​​​​​

Apache Tika试用

java -jar tika-app-2.9.1.jar --gui

启动图形界面

直接拖拽一个文件进去

若文件较大,或内容复杂(包括图,表)等,处理过程会比较慢。

GUI会卡主,没关系,等一会就好了

可以切换不同模式显示输出内容。

​​​​​​​

相关推荐
Coovally AI模型快速验证1 天前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
人工智能·深度学习·算法·机器学习·目标跟踪·语言模型
Scabbards_1 天前
KGGEN: 用语言模型从纯文本中提取知识图
人工智能·语言模型·自然语言处理
猫头虎1 天前
昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地
人工智能·百度·开源·aigc·文心一言·gpu算力·agi
YangYang9YangYan1 天前
高职大数据技术专业学习与发展指南
大数据·人工智能·学习·数据分析
得物技术1 天前
得物管理类目配置线上化:从业务痛点到技术实现
后端·算法·数据分析
leafff1232 天前
AI研究:大语言模型(LLMs)需要怎样的硬件算力
大数据·人工智能·语言模型
爱思德学术2 天前
第二届中欧科学家论坛暨第七届人工智能与先进制造国际会议(AIAM 2025)在德国海德堡成功举办
人工智能·算法·机器学习·语言模型
形宙数字2 天前
【形宙数字】MANGOLD INTERACT 行为观察分析系统-行为观察统计分析-人类行为学研究-行为逻辑
信息可视化·数据分析·行为观察分析系统·行为观察统计分析·人类行为学研究·行为逻辑·形宙数字
hzp6662 天前
基于大语言模型(LLM)的多智能体应用的新型服务框架——Tokencake
人工智能·语言模型·大模型·llm·智能体·tokencake
fl1768312 天前
基于python的天气预报系统设计和可视化数据分析源码+报告
开发语言·python·数据分析