【Elasticsearch】映射:fielddata 详解

映射:fielddata 详解

  • [1.fielddata 是什么](#1.fielddata 是什么)
  • [2.fielddata 的工作原理](#2.fielddata 的工作原理)
  • 3.主要用法
    • [3.1 启用 fielddata(通常在 text 字段上)](#3.1 启用 fielddata(通常在 text 字段上))
    • [3.2 监控 fielddata 使用情况](#3.2 监控 fielddata 使用情况)
    • [3.3 清除 fielddata 缓存](#3.3 清除 fielddata 缓存)
  • 4.使用场景示例
    • [示例 1:对 text 字段进行聚合](#示例 1:对 text 字段进行聚合)
    • [示例 2:对 text 字段进行排序](#示例 2:对 text 字段进行排序)
  • [5.fielddata 与 doc_values 的区别](#5.fielddata 与 doc_values 的区别)
  • 6.注意事项
  • 7.最佳实践

1.fielddata 是什么

fielddata 是 Elasticsearch 中一种数据结构,用于在内存中缓存字段数据,主要服务于以下场景:

  • 聚合操作(Aggregations)
  • 排序(Sorting)
  • 脚本计算(Scripting)
  • 某些类型的查询 (如 field 字段上的 term 查询)

当需要对 text 字段或其他非 doc_values 支持的字段执行上述操作时,Elasticsearch 需要将这些字段的值加载到内存中,这就是 fielddata 的作用。

2.fielddata 的工作原理

  • 按需加载:当第一次需要对某个字段执行聚合 / 排序等操作时,Elasticsearch 会从磁盘读取该字段的所有值并构建内存中的数据结构。
  • 存储在 JVM 堆内存fielddata 会占用 JVM 堆内存空间。
  • 字段级启用 :默认情况下,text 字段禁用 fielddatakeyword 字段使用 doc_values 而非 fielddata

3.主要用法

3.1 启用 fielddata(通常在 text 字段上)

json 复制代码
PUT my_index/_mapping
{
  "properties": {
    "my_text_field": { 
      "type":     "text",
      "fielddata": true
    }
  }
}

3.2 监控 fielddata 使用情况

json 复制代码
GET _nodes/stats/indices/fielddata?fields=*

3.3 清除 fielddata 缓存

json 复制代码
POST my_index/_cache/clear?fielddata=true

4.使用场景示例

示例 1:对 text 字段进行聚合

json 复制代码
GET my_index/_search
{
  "size": 0,
  "aggs": {
    "my_terms": {
      "terms": {
        "field": "my_text_field"  // 需要该字段启用 fielddata
      }
    }
  }
}

示例 2:对 text 字段进行排序

json 复制代码
GET my_index/_search
{
  "sort": [
    {
      "my_text_field": {
        "order": "asc"
      }
    }
  ]
}

5.fielddata 与 doc_values 的区别

特性 fielddata doc_values
构建时机 查询时按需构建 索引时预先构建
存储位置 JVM 堆内存 磁盘(操作系统缓存)
内存占用
适用字段类型 主要为 text 字段 主要为 keyword / numeric / date 等字段
默认启用 text 字段默认禁用 支持的字段默认启用

6.注意事项

  • 内存消耗fielddata 会显著增加内存使用,特别是高基数(大量唯一值)字段。
  • 性能影响 :首次加载 fielddata 可能导致查询延迟。
  • 替代方案 :对于 keyword / numeric / date 等字段,优先使用 doc_values
  • 熔断机制 :Elasticsearch 有 fielddata 熔断器防止内存耗尽。

7.最佳实践

  • 尽量避免在 text 字段上启用 fielddata

  • 如需对文本进行聚合/排序,考虑使用多字段(multi-field)映射:

    json 复制代码
    "my_field": {
      "type": "text",
      "fields": {
        "keyword": {
          "type": "keyword"
        }
      }
    }

    然后对 my_field.keyword 进行操作。

  • 监控 fielddata 内存使用,设置合理的熔断阈值。

相关推荐
小王毕业啦7 小时前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
2501_927283588 小时前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
还是奇怪10 小时前
AI 提示词工程入门:用好的语言与模型高效对话
大数据·人工智能·语言模型·自然语言处理·transformer
Data_Journal11 小时前
如何使用cURL更改User Agent
大数据·服务器·前端·javascript·数据库
weixin_4462608511 小时前
城市智能化的底层基石:基于腾讯地图服务生态的移动定位与导航架构指引
大数据·人工智能·架构
qq_2837200512 小时前
Vibe Coding 氛围编程入门教程:AI 时代的全新开发范式(零基础到实战)
大数据·人工智能
Volunteer Technology12 小时前
ES并发控制
大数据·elasticsearch·搜索引擎
johnny23313 小时前
搜索聚合引擎:SearXNG、Degoog
搜索引擎
小飞象—木兮13 小时前
《销售数据分析标准实践手册》:核心内涵与关键指标、落地销售数据分析的全流程···(附相关材料下载)
大数据·人工智能·数据挖掘·数据分析
盟接之桥14 小时前
什么是EDI(电子数据交换)|制造业场景解决方案
大数据·网络·安全·汽车·制造