Elasticsearch

什么是elasticsearch

根据维基百科的定义:Elasticsearch 是一个基于Lucene库的搜索引擎。它提供了一个分布式、支持多租户的全文搜索引擎,具有HTTP Web接口和无模式JSON文档。

为啥要用elasticsearch

高性能,近实时,大数据,丰富的功能,灵活的查询和搜索操作,社区支持与生态系统。

一些基本概念

数据的组织方式:索引:对应 mysql 的表

文档:对比mysql表的数据

数据的部署方式,主要讨论分片和副本

分片:类比关系型数据库中的分库分表

副本:类比主从 同步的从库

本质上来说,大型中间件都是有类似的机制:

分片:无法将数据都放在同一个地方,分布式的概念。

副本:一般来说一个分片有多个副本,防止崩溃而导致的缺失。

倒排索引

其中实现一个比较重要的概念就是"倒排索引",其中这个概念在人工智能概述中接触过,所谓倒排索引,根据维基百科的定义 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

个人理解就是 关键词,就是 搜索 苹果,会出来几个喜欢苹果相关的人。而不是专门去找某个人?

elasticsearch基本概念 :写入流程

如何写入的?

先被写入到buffter里面,然后定时刷新到page cache 里面 加refresh。

刷新到磁盘中,这时候还会同步记录一个 commit point 。

只有在commit point 里面的数据 才可以被搜索到的,这也就是说elasticsearch 是一个近实时中间件的原因。

elasticsearch字段类型

核心数据字段

字符串数据类型:text (分词) keyword(不分词)

数值型:如long integer short byte double float half_float half_float scaled_gloat

日期类型:date

布尔类型 boolean

二进制类型 binary

范围类型 integer_range、float_range、long_range 、 double_range 、 date_range

复杂数据类型

数组类型:不需要专门的类型来定义数组

对象类型:object 单独的json对象

嵌套类型:nested object

地理位置数据类型

地理点数据类型:geo_point ,经纬点

地理形状数据类型:geo_shape 多边形的复杂地理形状。

专用数据类型

IPV4 ip协议为ipv4 的地址。

完成数据类型:completion

单词技术数据类型 :token count 统计字符串中的单词数量。

支持的查询

有什么不会的问gpt就是了,或者查文档,问题导向驱动。

相关推荐
GIS数据转换器41 分钟前
延凡智慧水务系统:引领行业变革的智能引擎
大数据·人工智能·无人机·智慧城市
2601_949539451 小时前
家用新能源 SUV 核心技术科普:后排娱乐、空间工程与混动可靠性解析
大数据·网络·人工智能·算法·机器学习
莫叫石榴姐1 小时前
字节广告数开一面 | 实习
大数据·数据仓库·面试
T06205142 小时前
【面板数据】地级市人力资本水平测算数据(1990-2024年)
大数据
TDengine (老段)2 小时前
TDengine IDMP 可视化 —— 饼图
大数据·数据库·人工智能·物联网·时序数据库·tdengine·涛思数据
Flying pigs~~2 小时前
从“踩坑”到“可控”:大模型 Prompt 工程实战总结与进阶方法论
大数据·人工智能·大模型·prompt·提示词工程
白眼黑刺猬3 小时前
实时库存预警: 如何实现秒级更新且保证在高并发下不出现“超卖”显示错误?
大数据·面试·职场和发展
云栖梦泽3 小时前
【AI】AI安全工具:常用AI安全检测工具的使用教程
大数据·人工智能·安全
智慧化智能化数字化方案4 小时前
咨询进阶——毕马威-高科技行业基于平衡计分卡的绩效管理方法研讨【附全文阅读】
大数据·绩效管理·人力资源管理·力资源管控体系·企业人力资源数字化转·绩效考核指标范例
财经资讯数据_灵砚智能4 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月6日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理·ai编程