技术栈

tika

菜鸟阿达
9 个月前
apache·tika·文件内容提取
文件内容提取:Apache Tika 2.9.2提取各种文件的文本内容,offic image zip 等等…
我码玄黄
1 年前
java·apache·文档解析·tika
文件解析的终极工具:Apache TikaApache Tika 是一个开源的、跨平台的库,用于检测、提取和解析各种类型文件的元数据。它支持多种文件格式,包括文档、图片、音频和视频。
暮暮七
1 年前
大数据·elasticsearch·word·tika
ES解析word内容为空的问题和直接使用Tika解析文档的方案在上一篇文章最后,我们虽然跑通了ES文件搜索的全部流程,但是仍然出现了1个大的问题:ES7.3实测无法索引docx和doc文档,content有值但是无法解析到附件成为可读的可搜索的内容,附件内容为空(附件中根本没有content这个字段,并非内容为空)。解决的思路是可以直接使用tika解析它的内容直接传递给ES,而不用通过pipline的黑盒。