Elasticsearch

目录

[1. 什么是 Elasticsearch?](#1. 什么是 Elasticsearch?)

[2. 与关系型数据库的对比](#2. 与关系型数据库的对比)

[3. 倒排索引](#3. 倒排索引)

[4. 为什么倒排索引如此高效?](#4. 为什么倒排索引如此高效?)


1. 什么是 Elasticsearch?

Elasticsearch 是一个开源的、分布式的、基于 RESTful API 的搜索和分析引擎。它建立在 Apache Lucene 搜索引擎库之上,提供了全文搜索、结构化搜索、分析以及三者结合的能力。

核心特点:

  • 分布式和高可用性: 数据被分片并分布在多个节点上,支持故障转移和扩展。

  • 近实时搜索: 数据从被索引到可搜索只有轻微的延迟(通常为 1 秒)。

  • RESTful API: 使用标准的 HTTP 方法(GET, POST, PUT, DELETE)进行所有操作,交互非常简单。

  • 面向文档: 存储的是复杂的结构化数据,序列化为 JSON 格式。

  • 模式自由(Schema-less): 无需预先定义数据结构(Schema),可以自动推断数据类型。但也支持明确定义模式以优化性能。

2. 与关系型数据库的对比

特性 Elasticsearch 关系型数据库(如 MySQL)
目的 搜索和分析 事务性数据存储(ACID)
数据模型 面向文档(JSON) 基于表和行
查询语言 RESTful API / Query DSL SQL
事务性 弱(非核心设计目标) 强(ACID)
扩展性 水平扩展(分布式) 通常垂直扩展,水平扩展较复杂
一致性 最终一致性(近实时) 强一致性

3. 倒排索引

正排索引 就是直接记录每个文档包含了什么内容。它的结构是 "文档 -> 内容"

倒排索引 则完全颠倒了这个关系。它记录的是 "单词 -> 出现在哪些文档中"

它主要包含两部分:

  1. 词项字典: 一个包含所有不重复单词(经过分词处理)的列表,也称为"词项"。

  2. 倒排列表: 对于每个词项,记录它出现在哪些文档中,以及出现的频率、位置等信息。

倒排索引 是一种将内容中的词项映射到包含它的文档 的数据结构。这种"从关键词到文档"的逆向思维,是 Elasticsearch 实现毫秒级全文搜索的基石。

4. 为什么倒排索引如此高效?

  1. 预先计算: 搜索所需的结果(词项 -> 文档的映射关系)在索引阶段就已经计算好并存储了下来。搜索时几乎是直接"查表",避免了实时遍历大量数据。

  2. 易于压缩: 倒排列表中的文档 ID 列表通常是排序好的数字,可以使用高效的压缩算法(如帧间隔编码)来减少磁盘占用和内存消耗。

  3. 适合缓存: 常用的搜索词项及其对应的倒排列表可以缓存在内存中,使得高频搜索的速度极快。

相关推荐
2601_957780847 小时前
GPT-5.5时代:从“指令集“到“任务契约“的Prompt工程范式迁移
大数据·人工智能·gpt·架构·prompt
189228048617 小时前
H27QBG8GDAIR-BCB闪存H27QCG8HEAIR-BCB
大数据·科技·缓存
财经资讯数据_灵砚智能8 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月11日
大数据·人工智能·python·信息可视化·自然语言处理
Promise微笑8 小时前
AI搜索时代的流量重构:Geo优化精细化运营标准与实战路径
大数据·人工智能·重构
qiyongwork8 小时前
智能项目管理信息系统的未来图景:AI赋能下的全链路革新与生态重构
大数据·人工智能·重构
tsyjjOvO8 小时前
ElasticSearch 从入门到实战
大数据·elasticsearch·搜索引擎
wanhengidc8 小时前
云手机的兼容性与稳定性
大数据·运维·服务器·网络·人工智能·智能手机
学术小白人8 小时前
往届EI检索稳定!第二届可信大数据与人工智能学术会议(ICTBAI 2026)
大数据·人工智能·物联网·microsoft·数字能源
小旭95278 小时前
ElasticSearch 从入门到实战:全文检索服务全解析
大数据·elasticsearch·搜索引擎·全文检索
caijing3658 小时前
全方位解析建筑设备系统解决方案:提升建筑效率与安全的关键
大数据·人工智能·安全