Elasticsearch

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。

Elasticsearch核心概念

索引(index)

索引(index):Elasticsearch存储数据的地方,可以理解成关系型数据库中的数据库概念

类型(type)

类型(type)

映射(mapping)

映射(mapping):映射是定义一个文档以及其所包含的字段如何被存储和索引的方法。相当于关 系型数据库中的表结构

文档(document)

文档(document):Elasticsearch中的最小数据单元,常以json格式显示,一个document相当于关系型数据库中的一行数据 文档-----> mysql中的一行(一条记录)

倒排索引

一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,对应一个包含它的文档id列 表

TF :单词在某个文档中出现的次数
POS:单词在文档中出现的位置

倒排索引的简单介绍

field(域)

field(域):相当于mysql中的一列(一个字段)

倒排索引补充

正排索引

在讲述倒排索引之前先介绍下正排索引。正排索引就是如下表形式:

文档id 文档内容
1 什么是正排索引
2 什么是倒排索引
3 正排索引和倒排索引

倒排索引

倒排索引就是对上表进行转换,最简单的倒排索引如下表所示:

单词 文档ids
什么 1,2
1,2
正排 1,3
倒排 2,3
索引 1,2,3
3

词频(TF)和位置(POS)

上表所示的倒排索引之所以是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词。实用的倒排索引还可以记载更多的信息,如下表第3列的词频位置

TF :单词在某个文档中出现的次数
POS:单词在文档中出现的位置

以"索引"这个单词为例,"3:2:<2,7>":表示在文档id是3的文档中出现2次,在文档中的位置分别是2和7。

相关推荐
B站计算机毕业设计之家3 小时前
智慧交通项目:Python+PySide6 车辆检测系统 YOLOv8+OpenCV 自定义视频 自定义检测区域 (源码+文档)✅
大数据·python·opencv·yolo·智慧交通·交通·车流量
数据与人工智能律师4 小时前
AI的法治迷宫:技术层、模型层、应用层的法律痛点
大数据·网络·人工智能·云计算·区块链
码上地球10 小时前
大数据成矿预测系列(三) | 从统计模型到机器学习:为何机器学习是成矿预测的新前沿?
大数据·机器学习·数据挖掘
Hello.Reader10 小时前
Flink 作业测试依赖、MiniCluster、DataStream 与 Table/SQL 上手
大数据·sql·flink
代码匠心12 小时前
从零开始学Flink:实时流处理实战
java·大数据·后端·flink
cxr82812 小时前
AI智能体赋能文化传承与创新领域:社群身份认同的数字空间重构与文化融合策略
大数据·人工智能·重构·提示词工程·ai赋能
IT研究室14 小时前
大数据毕业设计选题推荐-基于大数据的全球用水量数据可视化分析系统-大数据-Spark-Hadoop-Bigdata
大数据·信息可视化·课程设计
yueyuebaobaoxinx14 小时前
从工具到中枢:2025 年 AI 重构实体经济的实践图景
大数据·人工智能·重构
huluang14 小时前
基于AI驱动的项目重构与落地实施指南
大数据·人工智能·重构
zezexihaha14 小时前
生成式 AI 重构内容创作:从辅助工具到智能工厂
大数据·人工智能·重构