【Elasticsearch】Mapping概述

以下是Elasticsearch中提到的关于Mapping的各模块概述:


1.Dynamic mapping(动态映射)

动态映射是指Elasticsearch在索引文档时,自动检测字段类型并创建字段映射的过程。当你首次索引一个文档时,Elasticsearch会根据字段的值类型(如字符串、数字、日期等)自动推断字段的映射类型。例如:

• 字符串字段会被自动映射为`text`或`keyword`类型。

• 数字字段会被映射为`integer`、`long`等类型。

• 日期字段会被映射为`date`类型。

动态映射的优点是方便快捷,但缺点是可能导致意外的字段类型推断,因此在生产环境中通常建议显式定义映射。


2.Explicit mapping(显式映射)

显式映射是指在索引创建时,手动定义字段的映射类型和参数。通过显式映射,你可以精确控制字段的存储方式、分析器、是否可搜索等属性。例如:

```json

PUT /my_index

{

"mappings": {

"properties": {

"name": { "type": "text" },

"age": { "type": "integer" },

"created_at": { "type": "date" }

}

}

}

```

显式映射适用于需要对字段进行精细控制的场景,例如自定义分词器、设置字段是否存储等。


3.Runtime fields(运行时字段)

运行时字段是一种在查询时动态计算的字段,而不是在索引时存储的字段。运行时字段可以基于已有的字段进行计算或转换,例如:

• 将字符串字段转换为日期格式。

• 根据多个字段的值计算一个新字段。

运行时字段的优点是灵活性高,但可能会对查询性能产生一定影响,因为每次查询都需要动态计算字段值。


4.Field data types(字段数据类型)

字段数据类型定义了字段可以存储的数据格式和行为。Elasticsearch支持多种数据类型,包括:

• 核心数据类型:如`text`、`keyword`、`integer`、`float`、`date`等。

• 复杂数据类型:如`object`、`nested`、`geo_point`等。

• 特殊数据类型:如`ip`、`binary`、`completion`等。

选择合适的数据类型对于优化存储和查询性能至关重要。


5.Metadata fields(元数据字段)

元数据字段是Elasticsearch自动为每个文档添加的特殊字段,用于存储文档的元信息。常见的元数据字段包括:

• `_id`:文档的唯一标识符。

• `_index`:文档所属的索引名称。

• `_type`:文档的类型(在7.x及以后版本中已被废弃)。

• `_source`:存储原始JSON文档。

• `_timestamp`:文档的创建时间戳。

这些字段通常用于管理和查询文档的元信息。


6.Mapping parameters(映射参数)

映射参数是用于定义字段行为的额外配置。常见的映射参数包括:

• `index`:指定字段是否可搜索。

• `store`:指定字段是否存储在索引中。

• `analyzer`:指定字段使用的分词器。

• `norms`:是否启用字段的规范化。

• `copy_to`:将字段的值复制到另一个字段。

通过这些参数,可以对字段的行为进行更细致的控制。


7.Mapping limit settings(映射限制设置)

映射限制设置用于控制索引的映射复杂度,以防止索引过大或过于复杂。常见的限制设置包括:

• `index.mapping.nested_fields.limit`:限制嵌套字段的数量。

• `index.mapping.nested_objects.limit`:限制嵌套对象的深度。

• `index.mapping.total_fields.limit`:限制索引中字段的总数。

• `index.mapping.depth.limit`:限制字段嵌套的深度。

这些设置有助于优化索引性能和资源使用。


8.Removal of mapping types(移除映射类型)

在Elasticsearch 7.x及以后版本中,`_type`字段已被废弃并移除。在早期版本中,`_type`用于区分同一索引中的不同文档类型,但在新版本中,Elasticsearch建议使用单独的索引来代替类型的概念。移除`_type`的主要原因是简化索引结构,减少复杂性,并提高性能。

Elasticsearch 的mapping(映射)是定义文档及其字段如何存储和索引的过程。它类似于传统数据库中的表结构定义,但在 Elasticsearch 中,映射更加灵活且具有动态性。以下是关于 Elasticsearch 映射的详细说明,包括其核心概念、主要功能以及如何使用它来优化数据存储和查询性能。


1.映射的作用

在 Elasticsearch 中,映射定义了以下几个关键内容:

• 字段的存储方式:字段的数据类型(如`text`、`keyword`、`integer`、`date`等)。

• 字段的索引方式:字段是否可搜索、是否存储原始值、是否进行分词等。

• 元数据字段:如`_source`、`_id`、`_index`等,用于管理文档的元信息。

• 字段的额外配置:如是否启用规范化(`norms`)、是否支持多字段(`multi-fields`)等。


2.映射的类型

Elasticsearch 提供了多种映射方式,以满足不同的需求。

2.1 动态映射(Dynamic Mapping)

动态映射允许 Elasticsearch 自动检测字段的数据类型并创建映射。当你首次索引一个文档时,Elasticsearch 会根据字段的值类型自动推断字段的映射类型。例如:

• 字符串字段会被自动映射为`text`或`keyword`。

• 数字字段会被映射为`integer`或`long`。

• 日期字段会被映射为`date`。

优点:

• 方便快捷,适合快速开发和原型设计。

• 自动适应新字段,无需手动定义。

缺点:

• 可能导致意外的字段类型推断。

• 不适合对性能和存储有严格要求的场景。

动态模板(Dynamic Templates):

你可以通过动态模板定义自定义映射规则,基于字段名称或数据类型匹配条件来应用特定的映射。例如:

```json

PUT /my_index

{

"mappings": {

"dynamic_templates": [

{

"strings_as_keywords": {

"match_mapping_type": "string",

"mapping": { "type": "keyword" }

}

}

]

}

}

```

在上述例子中,所有字符串字段都会被自动映射为`keyword`类型。


2.2 显式映射(Explicit Mapping)

显式映射允许你在索引创建时手动定义字段的映射类型和参数。这种方式提供了更高的灵活性和控制力。例如:

```json

PUT /my_index

{

"mappings": {

"properties": {

"name": { "type": "text" },

"age": { "type": "integer" },

"created_at": { "type": "date" },

"location": { "type": "geo_point" }

}

}

}

```

优点:

• 精确控制字段的存储和索引方式。

• 避免动态映射可能导致的类型推断错误。

• 适合生产环境和对性能要求较高的场景。

缺点:

• 需要提前定义字段,不够灵活。


2.3 运行时字段(Runtime Fields)

运行时字段是一种在查询时动态计算的字段,而不是在索引时存储的字段。它们可以基于已有的字段进行计算或转换。例如:

```json

PUT /my_index/_mapping

{

"runtime": {

"day_of_week": {

"type": "keyword",

"script": "emit(doc['created_at'].value.dayOfWeekEnum.getDisplayName(TextStyle.FULL, Locale.ROOT))"

}

}

}

```

在上述例子中,`day_of_week`字段会在查询时动态计算文档的`created_at`字段对应的星期几。

优点:

• 灵活性高,无需重新索引即可添加新字段。

• 可以基于已有字段进行复杂计算。

缺点:

• 查询性能可能受到影响,因为每次查询都需要动态计算字段值。


3.映射的组件

Elasticsearch 的映射由以下几个关键组件组成:

3.1 字段(Fields)

字段是文档的基本单元,每个字段都有自己的数据类型。Elasticsearch 支持多种数据类型,包括:

• 核心数据类型:`text`、`keyword`、`integer`、`float`、`date`、`boolean`等。

• 复杂数据类型:`object`、`nested`、`array`等。

• 特殊数据类型:`geo_point`、`geo_shape`、`ip`、`completion`等。

3.2 元数据字段(Metadata Fields)

元数据字段是 Elasticsearch 自动为每个文档添加的特殊字段,用于存储文档的元信息。常见的元数据字段包括:

• `_id`:文档的唯一标识符。

• `_index`:文档所属的索引名称。

• `_source`:存储原始 JSON 文档。

• `_timestamp`:文档的创建时间戳。

3.3 映射参数(Mapping Parameters)

映射参数是用于定义字段行为的额外配置。常见的映射参数包括:

• `index`:指定字段是否可搜索。

• `store`:指定字段是否存储在索引中。

• `analyzer`:指定字段使用的分词器。

• `norms`:是否启用字段的规范化。

• `copy_to`:将字段的值复制到另一个字段。

3.4 多字段(Multi-Fields)

多字段允许你将同一个字段以不同的方式索引。例如,你可以将一个字符串字段同时索引为`text`和`keyword`,以满足全文搜索和排序/聚合的需求。例如:

```json

PUT /my_index

{

"mappings": {

"properties": {

"name": {

"type": "text",

"fields": {

"keyword": { "type": "keyword" }

}

}

}

}

}

```

在上述例子中,`name`字段被索引为`text`类型,同时通过`fields`添加了一个`keyword`多字段。


4.映射的管理

Elasticsearch 提供了多种工具和 API 来管理映射。

4.1 创建索引和映射

在创建索引时,可以显式定义映射:

```json

PUT /my_index

{

"mappings": {

"properties": {

"name": { "type": "text" },

"age": { "type": "integer" }

}

}

}

```

4.2 更新映射

使用Update Mapping API可以更新现有的映射。例如,添加新字段:

```json

PUT /my_index/_mapping

{

"properties": {

"email": { "type": "keyword" }

}

}

```

4.3 获取映射

使用Get Mapping API可以查看索引的映射定义:

```json

GET /my_index/_mapping

```


5.防止映射爆炸

在 Elasticsearch 中,定义过多字段可能导致映射爆炸(Mapping Explosion),这可能会导致内存不足错误,并且很难恢复。为了避免这种情况,可以使用以下策略:

• 限制字段数量:通过设置`index.mapping.total_fields.limit`参数限制索引中字段的总数。

• 限制嵌套深度:通过设置`index.mapping.depth.limit`参数限制字段嵌套的深度。

• 谨慎使用动态映射:避免每条新文档都引入新字段,尽量在索引创建时显式定义字段。


6.移除映射类型(Removal of Mapping Types)

在 Elasticsearch 7.x 及更高版本中,`_type`字段已被废弃并移除。在早期版本中,`_type`用于区分同一索引中的不同文档类型,但在新版本中,Elasticsearch 建议使用单独的索引来代替类型的概念。移除`_type`的主要原因是简化索引结构,减少复杂性,并提高性能。


7.映射的优化建议

为了优化 Elasticsearch 的映射,可以遵循以下最佳实践:

• 显式定义字段:尽量使用显式映射,避免动态映射可能导致的类型推断错误。

• 使用多字段:根据需求将字段索引为多种类型,以满足不同的查询需求。

• 限制字段数量:避免过多字段导致映射爆炸。

• 选择合适的数据类型:例如,使用`keyword`而非`text`进行排序或聚合。

• 使用运行时字段:在不重新索引的情况下进行模式更改。


总结

Elasticsearch 的映射是定义文档结构和字段行为的核心机制。通过动态映射、显式映射和运行时字段,你可以灵活地管理数据的存储和索引方式。合理设计映射


如果你对某个模块有更深入的问题,欢迎继续提问!

相关推荐
OtIo TALL2 小时前
Java进阶(ElasticSearch的安装与使用)
java·elasticsearch·jenkins
Elastic 中国社区官方博客6 小时前
Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
前端若水7 小时前
Git 撤销与恢复完全指南(超级详细版)
大数据·git·elasticsearch
tonydf7 小时前
日志模块该如何设计
后端·elasticsearch
前端若水7 小时前
Git 可以做的所有操作(完整分类)
大数据·git·elasticsearch
Elasticsearch7 小时前
我们如何构建 Elasticsearch simdvec,使向量搜索成为世界上最快之一
elasticsearch
搬砖天才、8 小时前
es数据备份
大数据·elasticsearch·jenkins
aXin_ya8 小时前
微服务第六天 es继续了解
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客8 小时前
使用 Elastic Observability 和 MCP 的 Agentic 驱动 Kubernetes 调查
数据库·elasticsearch·搜索引擎·云原生·容器·kubernetes·全文检索
前端若水8 小时前
Git 仓库管理命令完全指南(超级详细版)
大数据·git·elasticsearch