IM项目-----ElasticSearch

文章目录


前言


ES介绍

在IM项目中通过引入ES,支持了用户搜索和历史消息的搜索。传统的关系型数据库主要是用于事务的复杂操作,对于这种需要模糊匹配的查询语句,索引会失效,进而进行全表扫描,对于数据量大的表效率是极其差的。

ES通过建立倒排索引的方式,根据用户搜索的词条进行模糊查询效率较高。ES是基于文档进行存储的。文档就相当于MYsql中的一行数据,里面存储的是通过Json序列化后的数据。

ES中有几个关键的概念:

  1. 索引, 相当于Mysql中的表
  2. 文档,MYsql中的一行记录
  3. 映射,MYsql中的表结构和约束
  4. Field,MYsql中的字段
  5. DSL,ES通过基于Json的DSL语句进行操作。

建立索引

建立索引就是建立"数据库表",那么就需要建立索引库映射

其中映射有几个关键的属性:

  1. 字段名
  2. 类型,项目中用到了text,keyword,long三种类型
  3. 是否建立索引,根据业务来定,就是是否参与搜索
  4. 分词器,默认选择ik_max_word就行,更细粒度的划分。

创建索引

使用kiban编写DSL语句,创建索引使用PUT /索引库名称。

cpp 复制代码
PUT /索引库名称
{
  "mappings": {
    "properties": {
      "user_id":{
        "type": "keyword",
        "index": "true",
        "analyzer": "starnd"
      },
      "nickname":{
        "type": "text",
        "index": "true",
        "analyzer": "ik_max_word"
      },
      "phone_number":{
       	 	"type": "keyword",
        	"index": "true",
        	"analyzer": "starnd"
        }
      },
      // ...略
    }
  }
}

新增文档

项目中通过user_id和message_id作为文档ID。

_doc是早期ES版本遗留下的概念,现在已经不使用了,但是默认加上。

cpp 复制代码
POST /索引库名/_doc/文档id
{
    "字段1": "值1",
    "字段2": "值2",
    // ...
}

删除文档

删除使用DELETE ,和Http比较像,我们使用的客户端elasticlient也是通过http协议与ES通信的。

cpp 复制代码
DELETE /{索引库名}/_doc/id值

修改文档

修改分为全量修改和部分修改,项目中只使用到了部分修改。

cpp 复制代码
POST /{索引库名}/_update/文档id
{
    "doc": {
         "字段名": "新的值",
    }
}

查询文档

查询文档的基本语法。

cpp 复制代码
GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

但是在项目中我们需要给查询加一些约束,在用户搜索中,我们需要添加must_not字段来屏蔽掉我们的好友,已经是好友的不能被搜索到,使用should字段表示可以匹配的条件。使用 "minimum_should_match": 1,要求至少需要有一个should字段被匹配。

在搜索历史消息时,我们需要添加must字段来约束chat_session_id必须匹配,使用should字段来匹配用户输入的关键字。

ES和Mysql数据如何保证一致

在项目中主要是通过代码层面的同步保持一致,在插入mysql后,会同步插入ES。但是这样业务侵入性太强了。且容易造成数据不一致(写入mysql后ES的写入失败)。

其他方案:

  1. 引入MQ,在写入mysql后发送一条消息到MQ,使用一个线程消费消息。通过MQ的重复消费可以确保数据的一致,但是引入MQ系统的复杂度上升,且引入一个组件,可用性也需要对齐进行保证。
  2. 使用阿里的canal组件,订阅binlog,cancl客户端通过TCP长连接或监听MQ来同步至ES。
相关推荐
升鲜宝供应链及收银系统源代码服务41 分钟前
升鲜宝AI助手 E-R 图与操作说明书(三)---升鲜宝生鲜配送供应链管理系统源代码服务
大数据·人工智能·机器学习·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·门店连锁系统源代码
财经资讯数据_灵砚智能41 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月5日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
谁似人间西林客1 小时前
数据驱动制造:工业大数据如何重塑智能决策链?
大数据·制造
真上帝的左手1 小时前
19. 大数据- BI - AI 应用1-融合场景解析
大数据·人工智能·ai·bi
待什么青丝2 小时前
【git的摸鱼技巧】之工欲善其事
git·elasticsearch·搜索引擎
老陈头聊SEO2 小时前
优化长尾关键词提升网站SEO效果的有效方法
其他·搜索引擎·seo优化
小王毕业啦2 小时前
2009-2024年 各国清廉指数CPI(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
杨某不才2 小时前
内网环境下,使用Docker安装Elasticsearch分词器插件
elasticsearch·docker·jenkins
2601_961194022 小时前
教资科三美术考什么|初中高中美术题型考点和模板资料
leetcode·elasticsearch·职场和发展·蓝桥杯·pat考试·lucene
AIkk863 小时前
班级群学习资料分享指南:工具推荐与实践
大数据·人工智能·html