Elasticsearch

哪里不会点哪里.2026-01-21 14:12

目录

[1. 什么是 Elasticsearch？](#1. 什么是 Elasticsearch？)

[2. 与关系型数据库的对比](#2. 与关系型数据库的对比)

[3. 倒排索引](#3. 倒排索引)

[4. 为什么倒排索引如此高效？](#4. 为什么倒排索引如此高效？)

1. 什么是 Elasticsearch？

Elasticsearch 是一个开源的、分布式的、基于 RESTful API 的搜索和分析引擎。它建立在 Apache Lucene 搜索引擎库之上，提供了全文搜索、结构化搜索、分析以及三者结合的能力。

核心特点：

分布式和高可用性： 数据被分片并分布在多个节点上，支持故障转移和扩展。
近实时搜索： 数据从被索引到可搜索只有轻微的延迟（通常为 1 秒）。
RESTful API： 使用标准的 HTTP 方法（GET, POST, PUT, DELETE）进行所有操作，交互非常简单。
面向文档： 存储的是复杂的结构化数据，序列化为 JSON 格式。
模式自由（Schema-less）： 无需预先定义数据结构（Schema），可以自动推断数据类型。但也支持明确定义模式以优化性能。

2. 与关系型数据库的对比

特性	Elasticsearch	关系型数据库（如 MySQL）
目的	搜索和分析	事务性数据存储（ACID）
数据模型	面向文档（JSON）	基于表和行
查询语言	RESTful API / Query DSL	SQL
事务性	弱（非核心设计目标）	强（ACID）
扩展性	水平扩展（分布式）	通常垂直扩展，水平扩展较复杂
一致性	最终一致性（近实时）	强一致性

3. 倒排索引

正排索引 就是直接记录每个文档包含了什么内容。它的结构是 "文档 -> 内容"。

倒排索引 则完全颠倒了这个关系。它记录的是 "单词 -> 出现在哪些文档中"。

它主要包含两部分：

词项字典： 一个包含所有不重复单词（经过分词处理）的列表，也称为"词项"。
倒排列表： 对于每个词项，记录它出现在哪些文档中，以及出现的频率、位置等信息。

倒排索引 是一种将内容中的词项映射到包含它的文档 的数据结构。这种"从关键词到文档"的逆向思维，是 Elasticsearch 实现毫秒级全文搜索的基石。

4. 为什么倒排索引如此高效？

预先计算： 搜索所需的结果（词项 -> 文档的映射关系）在索引阶段就已经计算好并存储了下来。搜索时几乎是直接"查表"，避免了实时遍历大量数据。
易于压缩： 倒排列表中的文档 ID 列表通常是排序好的数字，可以使用高效的压缩算法（如帧间隔编码）来减少磁盘占用和内存消耗。
适合缓存： 常用的搜索词项及其对应的倒排列表可以缓存在内存中，使得高频搜索的速度极快。

上一篇：前端向架构突围系列 - 工程化（五）：企业级脚手架的设计与落地

下一篇：利用AI识别损毁程度是愿景吗《软件方法》第2章

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？