ES前置定义和描述

目录

介绍说明

基于Apache Lucene构建的开源分布式搜索和分析引擎,专为处理大规模数据而设计。

java语言开发的web项目

全文检索

定义 :一种非结构化数据 的搜索方式
结构化数据 :固定长度固定格式,比如数据库中的字段
非结构化数据 :格式长度不固定,比如电商网站商品详情(包含文字,图片等)
搜索方式:全文检索通过建立倒排索引加快搜索效率

倒排索引

索引 :提取出一部分数据信息,并组成一定的数据结构,使得用户可通过此结构进行搜索。
正排索引 :以数据库中的主键建立正排索引
倒排索引 :在非结构化数据中,根据数据中的关键词建立索引,并建立指向文档。

倒排索引创建流程

ES和Solr的对比

特性 Solr Elasticsearch
分布式管理 利用Zookeeper进行分布式管理 自身带有分布式协调管理功能
数据格式支持 支持更多格式的数据 仅支持json文件格式
功能提供 官方提供的功能更多 本身更注重于核心功能,高级功能多由第三方插件提供
搜索应用表现 在传统的搜索应用中表现好于Elasticsearch 在处理实时搜索应用时效率明显高于Solr
市场占有率 - 越来越高,受到更多公司的青睐
Spring支持 Spring Data Solr曾受支持 Spring从2020年起停止Spring Data Solr的维护,转向Elasticsearch

数据结构(存储非结构化数据)

7.0之前有type后续,8.0则完全移除type这个概念。

JAVA项目 Elasticsearch (ES) MySQL
实体类(Entity Class) 索引(Index)* 表(Table)
对象(Object) 文档(Document) 行(Row)
属性(Attribute/Field) 字段(Field) 列(Column)
相关推荐
DolphinScheduler社区16 分钟前
第 8 篇|Apache DolphinScheduler 与 Flink Spark 数据引擎的边界、协同与最佳实践
大数据·flink·spark·开源·apache·海豚调度·大数据工作流调度
黄焖鸡能干四碗16 分钟前
企业元数据梳理和元数据管理方案(PPT方案)
大数据·运维·网络·分布式·spark
木心术119 分钟前
大数据处理技术:Hadoop与Spark核心原理解析
大数据·hadoop·分布式·spark
BizViewStudio7 小时前
甄选 2026:AI 重构新媒体代运营行业的三大核心变革与落地路径
大数据·人工智能·新媒体运营·媒体
老陈头聊SEO7 小时前
AI技术在SEO关键词策略中的创新应用探讨
其他·搜索引擎·seo优化
Cx330❀9 小时前
Linux命名管道(FIFO)通信:从原理到实操,一文搞懂跨进程通信
大数据·linux·运维·服务器·elasticsearch·搜索引擎
Cha0~9 小时前
搜索引擎爬虫语言识别机制详解
爬虫·搜索引擎
汽车仪器仪表相关领域9 小时前
NHVOC-70系列固定污染源挥发性有机物监测系统:精准破局工业VOCs监测痛点,赋能环保合规升级
大数据·人工智能·安全性测试
实证小助手10 小时前
世界各国经济政策不确定指数(1997-2024年)月度数据
大数据·人工智能
csgo打的菜又爱玩11 小时前
1.JobManager启动流程解析.md
大数据·flink·源代码管理