lucene

Elastic 中国社区官方博客12 天前
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·lucene
Elasticsearch:优化的标量量化 - 更好的二进制量化作者:来自 Elastic Benjamin Trent在这里,我们解释了 Elasticsearch 中的优化标量量化以及如何使用它来改进更好的二进制量化 (Better Binary Quantization - BBQ)。
Elastic 中国社区官方博客18 天前
大数据·人工智能·后端·elasticsearch·搜索引擎·全文检索·lucene
Elasticsearch:Lucene 2024 年回顾作者:来自 Elastic Chris Hegarty2024 年对于 Apache Lucene 来说又是重要的一年。在本篇博文中,我们将探讨主要亮点。
Elastic 中国社区官方博客25 天前
大数据·elasticsearch·搜索引擎·全文检索·lucene·全文搜索
Lucene 漏洞历险记:修复损坏的索引异常作者:来自 Elastic Benjamin Trent有时,一行代码需要几天的时间才能写完。在这里,我们可以看到工程师在多日内调试代码以修复潜在的 Apache Lucene 索引损坏的痛苦。
鱼香鱼香rose1 个月前
搜索引擎·全文检索·lucene
面经zhenyq在Unity中实现分层的动画效果,可以通过Animator的 Layer 功能实现。以下是详细步骤:分层动画允许在同一个角色的不同部分同时播放独立的动画。例如:
ccc_9wy1 个月前
apache·solr·lucene·xxe·ssrf·vulhub·cve-2017-12629
Apache Solr XXE(CVE-2017-12629)--vulhub其他dtd文件利用jar包中的dtd文件远程dtd文件单行payload将payload进行url编码(xxe代码转为单行后的代码)
ccc_9wy1 个月前
apache·solr·lucene·burp suite·vulhub·远程命令执行漏洞rce·cve-2017-12629
Apache Solr RCE(CVE-2017-12629)--vulhubApache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。
ccc_9wy1 个月前
网络安全·apache·solr·lucene·vulhub·cve-2019-0193·远程命令执行漏洞rce
Apache Solr RCE(CVE-2019-0193)--vulhub其原理主要基于Solr的DataImportHandler(数据导入处理器)模块,这个模块允许用户通过配置文件(dataConfig)来定义数据的导入过程,在dataConfig中,用户可以定义JavaScript函数来转换或处理数据。如果这些脚本没有得到适当的限制,攻击者可以利用这一点执行任意代码。
斯普信专业组1 个月前
elasticsearch·架构·lucene
Elasticsearch 架构及 Lucene 索引结构原理入门一个 ES Index 在集群模式下,有多个Node(节点)组成,每个节点就是ES的 instance(实例) 每个节点上会有多个 shard(分片),P1 P2 是主分片,R1 R2 是副本分片。 每个分片上对应着就是一个 Lucene Index (底层索引文件) Lucene Index 是一个统称: 由多个 Segment(段文件,就是倒排索引)组成,每个段文件存储着的就是 Doc 文档。 commit point 记录了所有的 segments 的信息
网络安全工程师老王2 个月前
web安全·网络安全·信息安全·apache·solr·lucene
从Apache Solr 看 Velocity 模板注入学过 freemaker,学过 Thymeleaf 模板注入,但是还没有学过 Velocity 模板注入,然后学习一个知识最好的方法就是要找一个实际中的例子去学习,好巧不巧,前端时间还在分析 apache solr 的 cve,这次又搜到了 Apache Solr 的 Velocity 模板注入漏洞,开始学习,启动,感觉结合一个例子来学,学得还是比较理解到的
infiniteWei2 个月前
搜索引擎·全文检索·lucene
【Lucene】单个cpu 每秒能支持多少个bm25公式的计算BM25(Best Matching 25)是一个常用于信息检索中的排名函数,它基于词频(TF)和逆文档频率(IDF)计算文档与查询之间的相关性。对于单个CPU能够每秒支持多少次BM25计算,影响因素有很多,比如CPU的性能(如时钟频率、核心数)、BM25公式的计算复杂度、数据大小、查询和文档的长度等。
一路向北North2 个月前
spring boot·全文检索·lucene
Lucene(2):Springboot整合全文检索引擎TermInSetQuery应用实例附源码本章代码已分享至Gitee: https://gitee.com/lengcz/springbootlucene01
infiniteWei2 个月前
算法·搜索引擎·lucene
【Lucene】搜索引擎和文档相关性评分 BM25 算法的工作原理BM25 算法的工作原理:BM25 是一种流行的文本检索算法,广泛用于搜索引擎和文档相关性评分。它基于概率检索模型,旨在评估查询和文档之间的相关性。
天蓝蓝235282 个月前
java·mybatis·lucene
Lucene数据写入流程Lucene的数据写入流程主要涉及到文档的创建、索引的添加以及最终写入磁盘的过程。文档的创建Lucene中的文档(Document)是索引的基本单位,每个文档都包含了一系列的字段(Field)。这些字段可以是文本字段、数字字段、日期字段等,用于存储文档的各种信息。在创建文档时,需要为每个文档指定一个唯一的文档ID,并为其添加所需的字段。
shiming88792 个月前
java·mybatis·lucene
Lucene数据写入与数据刷盘机制Lucene的数据写入流程主要涉及到文档的创建、索引的添加以及最终写入磁盘的过程。文档的创建Lucene中的文档(Document)是索引的基本单位,每个文档都包含了一系列的字段(Field)。这些字段可以是文本字段、数字字段、日期字段等,用于存储文档的各种信息。在创建文档时,需要为每个文档指定一个唯一的文档ID,并为其添加所需的字段。
infiniteWei2 个月前
搜索引擎·全文检索·lucene
【Lucene】详解倒排表的结构,如何实现词典与文档的映射关系倒排表是全文检索系统中最关键的数据结构之一,用于高效地实现词典与文档的映射关系。Lucene通过倒排表将每个词元(Term)与包含该词元的文档相关联,同时记录位置信息和词频等数据,极大提升了查询效率。
infiniteWei2 个月前
搜索引擎·全文检索·lucene
【Lucene】详细讲解创建索引的步骤:分词、去停用词、语言处理、倒排表构建Lucene在创建索引时,将文档内容处理为可以快速查询的倒排索引。具体步骤包括分词、去停用词、语言处理、倒排表构建等。
Elastic 中国社区官方博客2 个月前
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·lucene
Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)作者:来自 Elastic Benjamin TrentLucene 和 Elasticsearch 中更好的二进制量化 (BBQ)。
infiniteWei2 个月前
搜索引擎·架构·全文检索·lucene
【Lucene】架构概览和核心组件介绍Apache Lucene 是一个高效的全文检索库,其架构设计使其在非结构化数据的检索和索引上具备很强的性能和灵活性。Lucene的核心组件共同协作,完成从数据索引到查询的全过程。以下是Lucene架构的概览及其核心组件的介绍:
光仔December2 个月前
大数据·elk·elasticsearch·搜索引擎·lucene
【Elasticsearch入门到落地】1、初识ElasticsearchElasticsearch(简称ES)是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。它使用Java编写,基于Apache Lucene来构建索引和提供搜索功能,是一个分布式、可扩展、近实时的高性能搜索与数据分析引擎。
infiniteWei2 个月前
搜索引擎·全文检索·lucene
【Lucene】从文本到索引:Lucene如何构建索引Lucene 构建索引的过程是将非结构化文本数据转化为结构化的倒排索引,以便实现快速的全文检索。Lucene的索引构建分为几个关键步骤,从文本解析、词元化,到最终的索引存储。