ElasticSearch(一)数据类型

ElasticSearch(一)数据类型

1.简述

Es数据类型分为基础数据类型和复杂类型数据,掌握ES数据类型才能进一步使用ES检索数据内容。

复制代码
      <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
            <version>2.7.7</version>
        </dependency>

2.基础类型

2.1.String类型

  • text:会被分词处理,用于全文检索,很少用于聚合处理(需要设置fielddata属性),不能用于排序
  • keyword:不可分词,用于精确搜索,过滤、排序、聚合等操作

1分期细粒度

在ES中存在三种模式的分词:Ik(ik_smart 、 ik_max_word)、standard(es自带的)。如果我们不指定分词模式,则默认会执行standard,语句被拆分成一个一个字。而ik_max_word是最细粒度的拆分,也是ik默认的,ik_smart是做最粗粒度的拆分。

举个最简单的例子,对于"进口红酒",三种拆分分别是:

standard:进、口、红、酒

ik_smart:进口、红酒

ik_max_word:进口、口红、红酒

2java中映射

使用String类型,需要通过@Field指定String具体类型,analyzer指定分词细粒度

复制代码
    @Field(type = FieldType.Text, analyzer = "ik_max_word")
    private String context;

2.2.Number类型

数字类型有如下分类:

类型 说明
byte 有符号的8位整数, 范围: -128 \~ 127
short 有符号的16位整数, 范围: -32768 \~ 32767
integer 有符号的32位整数, 范围: −231 \~ 231-1
long 有符号的64位整数, 范围: −263 \~ 263-1
float 32位单精度浮点数
double 64位双精度浮点数
half_float 16位半精度IEEE 754浮点类型
scaled_float 缩放类型的的浮点数, 比如price字段只需精确到分, 57.34缩放因子为100, 存储结果为5734

设置Number类型字段时候应当尽可能选择范围小的数据类型, 字段的长度越短, 索引和搜索的效率越高;优先考虑使用带缩放因子的浮点类型

1.Date类型

Date类型在Elasticsearch中以数值形式(long类型)存储。文档在索引Date类型数据时候,会根据format选项来指定日期格式,Elasticsearch默认解析ISO 8601格式字符串。format选项有:

  • 格式化的日期字符串

    比如yyyy-MM-dd格式的,2020-01-01,还有ISO8601格式的2020-01-01T05:04:03Z

  • 毫秒数

    比如1584930153000

  • 秒数

    比如1584930153

  • 多种格式混合

    多个格式使用双竖线||分隔,每个格式都会被依次尝试, 直到找到匹配的,比如yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis

2.java中映射

复制代码
    @Field(type = FieldType.Date, format = DateFormat.custom, pattern = "yyyy-MM-dd HH:mm:ss")
    @JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss", timezone = "GMT+8")
    private Date endTime;

2.4.Boolean类型

  • 真值,表示真值的有true,"true", "on", "yes", "1"
  • 假值,表示假值的有false, "false", "off", "no", "0", "", 0.0, 0

3.复杂类型

3.1.object-对象类型

对象类型:针对单个json文档 ;

1.扁平化处理

复制代码
PUT example/docs/1
{
    "region": "CN",
    "manager": {
        "age": 22,
        "name": {
            "first": "李",
            "last": "小明"
        }
    }
}

用平面的结构可以用如下的来表示。

复制代码
{
  "region":            "CN",
  "manager.age":        32,
  "manager.name.first": "李",
  "manager.name.last":  "小明"
}

2.java中映射

复制代码
    @Field(type = FieldType.Object)
    private File file;

@Data
public class FileEntity {
    private String fileName;
    private String url;

}

3.2.nested嵌套类型

用于存储json对象数组嵌套类型

Nested (嵌套)类型,是特殊的对象类型,特殊的地方是索引对象数组方式不同,允许数组中的对象各自地进行索引。目的是对象之间彼此独立被查询出来。

1.扁平化处理

复制代码
PUT my_index/_doc/1
{
  "group" : "fans",
  "user" : [ 
    {
      "first" : "John",
      "last" :  "Smith"
    },
    {
      "first" : "Alice",
      "last" :  "White"
    }
  ]
}
// user 字段被es默认设置为object类型

在es内部,该json对象会被转换为如下文档。

复制代码
{
  "group" :        "fans",
  "user.first" : [ "alice", "john" ],
  "user.last" :  [ "smith", "white" ]
}

2.java中映射

复制代码
    /**
     * 采购需求书下载(文件列表)
     */
    @Field(type = FieldType.Nested)
    private List<FileEntity> files;
相关推荐
跨境猫小妹12 分钟前
多国海关字段持续细化后跨境卖家如何搭建商品信息映射表
大数据·数据库·人工智能·跨境电商·跨境·营销策略
Aurora_Dawn_yy15 分钟前
单机部署数据同步_jdk,mysql,kafka,flink,zookeeper,达梦,starrocks
大数据·linux·starrocks·zookeeper·达梦
CryptoPP18 分钟前
多市场行情 API 接入实战:一套接口打通股票/外汇/期货/加密货币 + WebSocket 实时推送
大数据·网络·人工智能·websocket·网络协议·金融·区块链
Fabarta技术团队19 分钟前
从「能问数」到「像分析师写报告」:AI+经营分析落地技术分享
大数据·人工智能
xinshuGEO19 分钟前
《GEO效果评估标准手册》
搜索引擎·geo优化方案·外部导入
让学习成为一种生活方式22 分钟前
RepeatMasker-4.2.4 安装与使用--bioinformatics tools094
大数据
知识分享小能手30 分钟前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)
大数据·hadoop·学习
heart_666231 分钟前
AMD平台实战:ModelScope 一键微调 Gemma 4 情绪分类实战
大数据·人工智能·datawhale·amdev
Agilex松灵机器人39 分钟前
万小时数据落地!松灵机器人构建具身智能数据新基建
大数据·人工智能·机器人·具身智能·松灵机器人
大大大大晴天️2 小时前
Flink Resource Providers 深度解析:机制原理、部署模式与最佳实践
大数据·flink