技术栈
tika
菜鸟阿达
1 个月前
apache
·
tika
·
文件内容提取
文件内容提取:Apache Tika 2.9.2
提取各种文件的文本内容,offic image zip 等等…
我码玄黄
4 个月前
java
·
apache
·
文档解析
·
tika
文件解析的终极工具:Apache Tika
Apache Tika 是一个开源的、跨平台的库,用于检测、提取和解析各种类型文件的元数据。它支持多种文件格式,包括文档、图片、音频和视频。
暮暮七
8 个月前
大数据
·
elasticsearch
·
word
·
tika
ES解析word内容为空的问题和直接使用Tika解析文档的方案
在上一篇文章最后,我们虽然跑通了ES文件搜索的全部流程,但是仍然出现了1个大的问题:ES7.3实测无法索引docx和doc文档,content有值但是无法解析到附件成为可读的可搜索的内容,附件内容为空(附件中根本没有content这个字段,并非内容为空)。解决的思路是可以直接使用tika解析它的内容直接传递给ES,而不用通过pipline的黑盒。