技术栈
lucene
risc123456
2 天前
lucene
【lucene】文档id docid
删除后文档id 还会被复用吗?不会。在 Lucene 里,docID 是一次性、不可复用的。- 同一个段(segment)内,docID 从 0 开始连续递增;一旦分配给某篇文档,就终身绑定,即使该文档随后被删除,这个号码也永远空出来,不会再次分配给新文档。
risc123456
2 天前
lucene
【lucene】lucene索引文件的读取器都是单向的只能向前不能后退读
**凡是通过 `IndexInput`/`IndexOutput` 的 `readXxx / writeXxx` 系列方法读写的底层流** 都是**单向顺序或随机定位**; 但 Lucene 在**高层**提供了几种不同的“游标”语义,要分清:
chenglin016
5 天前
clickhouse
·
solr
·
lucene
ClickHouse、Doris、OpenSearch、Splunk、Solr系统化分析
关键决策因素:
Freed&
10 天前
大数据
·
elasticsearch
·
搜索引擎
·
lucene
倒排索引:Elasticsearch 搜索背后的底层原理
面试题:Elasticsearch 的分片底层是如何工作的? 答:每个 Elasticsearch 分片底层对应一个 Lucene 索引实例,而 Lucene 使用 倒排索引(Inverted Index) 技术来实现高效全文检索。
risc123456
11 天前
lucene
【lucene】ByteBufferGuard
`ByteBufferGuard` 是 Lucene 用来**保护 `ByteBuffer` 不被非法访问或提前释放**的一个 **安全/防御性机制**。
risc123456
12 天前
lucene
【lucene】使用docvalues的案例
下面给出一段 可直接跑通 的 Lucene 8.5.0 示例代码,演示如何1. 建索引时为两个字段启用 DocValues(一个 `NumericDocValues`,一个 `SortedDocValues`);
risc123456
13 天前
lucene
【lucene】currentFrame与staticFrame
`currentFrame` 是 `SegmentTermsEnum`(`TermsEnum` 的一个具体实现)里 “当前正在扫描的那个 block” 的 状态容器。
risc123456
14 天前
全文检索
·
lucene
【lucene】IndexOptions
这段代码是 Lucene(一个开源的全文检索引擎库)中定义的一个枚举 `IndexOptions`,用来控制**倒排索引(postings lists)中存储的信息量**。它决定了字段(Field)在索引时记录哪些细节,从而影响索引大小、功能支持和查询能力。
risc123456
14 天前
lucene
【lucene】SegmentCoreReaders
`SegmentCoreReaders` 是 Lucene 内部的一个包级可见(package-private)工具类,位于
risc123456
17 天前
lucene
【lucene】BlockMaxConjunctionScore
`BlockMaxConjunctionScorer` 是 Lucene 8.5+ 引入的一个高性能交集打分器(conjunction scorer),专门用于处理 多条件“与”查询(AND 查询) 的场景。它基于 Block-Max WAND(BMW)算法,可以提前跳过不具竞争力的文档块(block),从而显著减少倒排表的解码和打分开销。
risc123456
18 天前
lucene
【lucene】AttributeSource概述
`AttributeSource` 是 Lucene 分析链(Tokenizer / TokenFilter)的 “属性仓库”:
risc123456
19 天前
lucene
【lucene】向量搜索底层文件关系梳理
下面用“一张图 + 两条流程”把 **`.vec` / `.vem` / `.vex`** 三件套以及 **HNSW vs 暴力搜索** 时如何配合这三个文件彻底讲清。
risc123456
22 天前
lucene
【Lucene】架构
Lucene 的架构可以简单拆成 “两大流程、六大模块、N 个核心类”。下面用一张脑图思路 + 关键类清单帮你一次理清。
risc123456
22 天前
lucene
【Lucene】lucene的searcher.search查询机制
lucene查询的时候也是先评分排序,最后才获取文档 甚至获取文档都不是必须的?是的,你的理解完全正确。
lrh3025
1 个月前
搜索引擎
·
全文检索
·
lucene
Custom SRP - Custom Render Pipeline
https://catlikecoding.com/unity/tutorials/custom-srp/custom-render-pipeline/
risc123456
1 个月前
java
·
数据结构
·
lucene
BKD 树(Block KD-Tree)Lucene
BKD 树(Block KD-Tree)是 Lucene 用来存储和快速查询 **多维数值型数据** 的一种磁盘友好型数据结构,可以把它想成:
risc123456
1 个月前
elasticsearch
·
jenkins
·
lucene
【Lucene/Elasticsearch】**Query Rewrite** 机制
这段话描述的是 Lucene/Elasticsearch 的 **Query Rewrite** 机制,核心一句话:
Elastic 中国社区官方博客
1 个月前
大数据
·
数据库
·
elasticsearch
·
搜索引擎
·
全文检索
·
lucene
Elasticsearch 字符串包含子字符串:高级查询技巧
作者:来自 Elastic Justin Castilla想要获得 Elastic 认证?看看下一次 Elasticsearch Engineer 培训什么时候开始吧!
zfj321
3 个月前
java
·
mybatis
·
lucene
Lucene多种数据类型使用说明
Lucene 作为一款高性能的全文检索引擎库,其核心功能围绕索引和搜索文本数据,但它也支持多种数据类型以满足复杂的应用场景。以下是 Lucene 支持的主要数据类型及其用途的详细说明:
事橙1999
3 个月前
linux
·
ubuntu
·
lucene
Ubuntu18 登录界面死循环 Ubuntu进不了桌面
今天碰到这个问题,真是把我恶心到了网上很多方法都不靠谱,最后我还是自己摸索出一个方法开机后在登陆界面按下shift + ctrl + F1(或者F2,一直按)进入tty命令行终端登陆后输入(本人的用户名为hp,因此chown后面跟了hp:hp若为其他用户名修改成相应的名称即可)