ElasticSearch-关联关系

  • Elasticsearch并不擅长处理关联关系,一般会采用以下四种方法处理关联
    • 对象类型
    • 嵌套对象 (Nested Object)
    • 父子关联关系 (Parent / Child)
    • 应用端关联

对象类型

  • 在每一博客的文档中都保留作者的信息
    • 如果作者信息发生变化,需要修改相关的博客文档
  • 包含对象数组的文档
    • 可能会搜到不需要的结果
      • 存储时,内部对象的边界并没有考虑在内,JSON格式被处理成扁平式键值对的结构
      • 当对多个字段进行查询时,导致意外的搜索结果
      • 可以用 Nested Data Type 解决这个问题
rest 复制代码
POST /my_movies/_doc/1 
{"title":"Speed","actors":[
  {"first_name":"Keanu","last_name":"Reeves"},
  {"first_name":"Dennis","last_name":"Hopper"}]}
# 会搜到不需要的结果,因为 JSON 格式被处理成扁平式键值对的结构
POST /my_movies/_search
{"query":{"bool":{"must":[
  {"match":{"actors.first_name":"Keanu"}}, 
  {"match":{"actors.last_name":"Hopper"}}]}}}

嵌套对象 (Nested Object)

  • Nested Data Type
    • Nested数据类型: 允许对象数组中的对象被独立索引
    • 使用nested 和properties 关键字,将所有actors索引到多个分隔的文档
    • 在内部, Nested文档会被保存在两个Lucene文档中,在查询时做Join处理
rest 复制代码
# 创建 Nested 对象 Mapping
PUT /my_movies
{"mappings":{"properties":{
  "actors":{"type":"nested","properties":{
    "first_name":{"type":"keyword"},
    "last_name":{"type":"keyword"}}},
  "title":{"type":"text",
    "fields":{"keyword":{"type":"keyword","ignore_above":256}}}}}}
POST /my_movies/_doc/1 
{"title":"Speed","actors":[
  {"first_name":"Keanu","last_name":"Reeves"},
  {"first_name":"Dennis","last_name":"Hopper"}]}
# Nested 查询
POST /my_movies/_search
{"query":{"bool":{"must":[
  {"match":{"title": "Speed"}}, 
  {"nested":{"path":"actors","query":{"bool":{"must":[
    {"match":{"actors.first_name":"Keanu"}},
    {"match":{"actors.last_name":"Hopper"}}]}}}}]}}}
# Nested Aggregation
POST /my_movies/_search
{"size":0,"aggs":{"actors":{
  "nested":{"path":"actors"},
  "aggs":{"actor_name":{"terms":{
    "field":"actors.first_name","size":10}}}}}}
# 普通 aggregation 不工作
POST /my_movies/_search
{"size":0,"aggs":{
 "NAME":{"terms":{
   "field":"actors.first_name","size":10}}}}

父子关联关系 (Parent / Child)

  • 对象和Nested对象的局限性: 每次更新,可能需要重新索引整个对象 (包括根对象和嵌套对象)
  • ES提供了类似关系型数据库中Join 的实现
    • 使用Join数据类型实现,可以通过维护Parent/ Child的关系,从而分离两个对象
  • 父文档和子文档是两个独立的文档
  • 更新父文档无需重新索引子文档
  • 子文档被添加,更新或者删除也不会影响到父文档和其他的子文档
  • 注意
    • 父文档和子文档必须存在相同的分片上,能够确保查询 join 的性能
    • 当指定子文档时候,必须指定它的父文档ld。使用routing参数来保证,分配到相同的分片
rest 复制代码
# 设定 Parent/Child Mapping
PUT /my_blogs
{"settings":{"number_of_shards":2},
 "mappings":{"properties":{
   "blog_comments_relation":{"relations":{"blog":"comment"},
     "type":"join"},
   "content":{"type":"text"},
   "title":{"type":"keyword"}}}}
# 索引父文档
PUT /my_blogs/_doc/blog1
{"title":"Learning Elasticsearch", 
 "content":"learning ELK ",
 "blog_comments_relation":{"name":"blog"}}
# 索引子文档
PUT /my_blogs/_doc/comment1?routing=blog1 
{"comment":"I am learning ELK",
 "username":"Jack",
 "blog_comments_relation":{"name":"comment","parent":"blog1"}}
rest 复制代码
# Parent Id 查询
POST /my_blogs/_search 
{"query":{"parent_id":{"type":"comment","id":"blog2"}}}
# Has Child 查询, 返回父文档 
POST /my_blogs/_search
{"query":{"has_child":{
  "type":"comment","query":{"match":{"username":"Jack"}}}}}
# Has Parent 查询, 返回相关的子文档 
POST /my_blogs/_search
{"query":{"has_parent":{
  "parent_type":"blog","query":{"match":{"title":"Learning Hadoop"}}}}}
# 通过 ID, 访问子文档
GET /my_blogs/_doc/comment3
# 通过 ID 和 routing, 访问子文档
GET /my_blogs/_doc/comment3?routing=blog2
# 更新子文档
PUT /my_blogs/_doc/comment3?routing=blog2 
{"comment":"Hello Hadoop??",
 "blog_comments_relation":{"name":"comment","parent":"blog2"}}

嵌套文档 VS 父子文档

Nested Object Parent / Child
优点 文档存储在一起,读取性能高 父子文档可以独立更新
缺点 更新嵌套的子文档时,需要更新整个文档 需要额外的内存维护关系,读取性能相对差
适用场景 子文档偶尔更新,以查询为主 子文档更新频繁
相关推荐
Mephisto.java2 小时前
【大数据学习 | Spark】Spark的改变分区的算子
大数据·elasticsearch·oracle·spark·kafka·memcache
mqiqe2 小时前
Elasticsearch 分词器
python·elasticsearch
小马爱打代码2 小时前
Elasticsearch简介与实操
大数据·elasticsearch·搜索引擎
java1234_小锋11 小时前
Elasticsearch是如何实现Master选举的?
大数据·elasticsearch·搜索引擎
梦幻通灵17 小时前
ES分词环境实战
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客17 小时前
Elasticsearch 中的热点以及如何使用 AutoOps 解决它们
大数据·运维·elasticsearch·搜索引擎·全文检索
小黑屋说YYDS1 天前
ElasticSearch7.x入门教程之索引概念和基础操作(三)
elasticsearch
Java 第一深情1 天前
Linux上安装单机版ElasticSearch6.8.1
linux·elasticsearch·全文检索
KevinAha2 天前
Elasticsearch 6.8 分析器
elasticsearch
wuxingge2 天前
elasticsearch7.10.2集群部署带认证
运维·elasticsearch