Lucene多种数据类型使用说明

Lucene 作为一款高性能的全文检索引擎库，其核心功能围绕索引和搜索文本数据，但它也支持多种数据类型以满足复杂的应用场景。以下是 Lucene 支持的主要数据类型及其用途的详细说明：

用途：全文搜索、分词处理。
特点：
- 分词（Tokenization） ：文本字段会被分词器（如 StandardAnalyzer）拆分为词项（Term），便于模糊匹配、短语查询等。
- 存储形式 ：通常使用 TextField 类型。
示例：

// 定义 Text 类型字段

FieldType textFieldType = new FieldType();

textFieldType.setStored(true); // 存储原始值

textFieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS); // 索引词项及其位置

textFieldType.setTokenized(true); // 启用分词

Field textField = new Field("content", "Lucene is a search library", textFieldType);

用途：精确值匹配（如 ID、状态码、标签）。
特点：
- 不分词：字段值作为一个整体存储和索引。
- 存储形式 ：通常使用 StringField 类型。
示例：

// 定义 String 类型字段（精确匹配）

Field idField = new StringField("id", "doc123", Field.Store.YES);

用途：范围查询（如价格、年龄）、排序、聚合。
实现方式：
- 旧版（Lucene 4.x 之前） ：使用 IntField、LongField、FloatField 等。
- 新版（Lucene 5+） ：统一使用 PointField（基于 BKD 树的高效数值索引）。
示例（新版）：

// 定义数值字段（IntPoint）

Field priceField = new IntPoint("price", 100);

// 存储原始值（需额外存储字段）

document.add(new StoredField("price", 100));

用途：排序、聚合、分组（类似数据库的列式存储）。
特点：
- 按文档 ID 快速访问字段值，适合非文本字段的高效计算。
- 支持数值、字符串、二进制等类型。
示例：

// 添加数值型 DocValues 字段

document.add(new NumericDocValuesField("price", 100));

用途：允许一个字段存储多个值（如标签、分类）。
实现方式：
- 同一字段多次添加到文档中。
示例：

document.add(new StringField("tag", "java", Field.Store.YES));

document.add(new StringField("tag", "search", Field.Store.YES));

数据类型	典型用途	是否分词	是否支持范围查询	存储方式
Text	全文搜索、模糊匹配	是	否	倒排索引 + 词向量
String	精确匹配（ID、状态码）	否	否	倒排索引
Numeric	数值范围查询、排序	否	是	Point 索引 + DocValues
Date	时间范围查询	否	是	Point 索引 + DocValues
Binary	存储二进制文件	否	否	原始存储
Geospatial	地理位置查询	否	是	Point 索引
DocValues	排序、聚合	否	是	列式存储
Term Vectors	高亮、词项位置追踪	是	否	倒排索引扩展

通过合理选择数据类型，可以显著提升 Lucene 的搜索性能和资源利用率。