-
什么是ES
- 是一个分布式、RESTful风格的搜索和数据分析引擎
- elasticSearch官网: Functions and Operators | Elasticsearch Guide [7.11] | Elastic
-
查询方式
-
Kibana查询(原生查询) - DSL
- 概念:ES特定的查询语言,一套基于JSON的查询语言。
- DSL查询直接使用Elasticsearch的API进行数据检索,所以要求用户对ES的查询机制有更深的了解
- 特点:DSL提供了强大的查询能力,包括叶子查询字句(如match、term、range)和复合查询字句(用于将多个查询逻辑组合起来)
- 概念:ES特定的查询语言,一套基于JSON的查询语言。
-
SQL编程 (对原生DSL加工)- esSQL
- 概念:SQL本质上是一个翻译器,它将SQL语句翻译成Elasticsearch的原生查询DSL,默认返回的是一个JSON结构
- 增加format参数,返回就是表格形式展现:/sql?format=txt
- 优点:SQL是一个广义的标准查询语言,降低了学习成本。
-
常见的坑
- 1,查询的SQL中不允许包含 换行符 "/n"
- 2,SQL查询筛选中带中文不生效,可以考虑升级ES的SQL版本
- 3,查询字符串类型,SQL中需包含 ''
- 4,如果ES服务端支持中文查询,则客户端不需要配置相关分词
- 5,ES不建议跨index查询,如果需要跨index查询,在同步关系数据库数据时到ES,可以联合多张表查询返回的结果集到ES,毕竟一个index可以看成一个库或者一张表
- ES-SQL安装
- 概念:SQL本质上是一个翻译器,它将SQL语句翻译成Elasticsearch的原生查询DSL,默认返回的是一个JSON结构
- Es默认返回10000条数据,要调大服务端就要改配置
-
-
基本概念
- 索引(Index):可看成关系数据库中的 表
- 类型(Type):可看成关系数据库中表的 数据类型
- 文档(Document):可看成关系数据库中表的每一行
- 映射(Mapping):类似于数据库中的"表结构定义",在Elasticsearch中,映射可以动态创建,也可以在创建索引时预先定义。
- 集群(Cluster):集群是由一个或多个节点组成的集合,它们共同工作以存储和搜索数据。集群可以跨多台机器分布,以实现数据的备份冗余和高可用性。
- 节点(Node):节点是集群中的一个实例。节点可以处理数据索引、搜索和聚合等操作。
- 分片(Shard):分片是索引的一部分,用于实现数据的分布式存储。每个分片都是一个独立的数据结构,可以在不同节点上复制和分割。
- 副本(Replica):副本是分片的复制品,用于提高数据的可靠性和搜索性能。每个分片可以有一个或多个副本,它们可以在节点间复制数据以提供故障转移能力。
- 倒排索引(Inverted Index):倒排索引是Elasticsearch用于快速搜索的关键数据结构,允许系统通过词汇快速找到包含该词汇的文档列表。
-
应用场景
- 全文搜索:如电商商品搜索、应用内搜索等。
- 日志分析:支持全栈日志分析,从采集到展示实现秒级响应。
- 运维监控:时序数据分析,适用于系统监控等。
- 安全分析:分析网络数据和安全事件。
- 数据监控:作为主要的后端存储,提供持久存储和统计功能。
-
工作原理
-
ES的工作原理基于Lucene库,实现了准实时的搜索功能。
- 索引过程:当文档被存储到ES中时,它将在1秒内以几乎实时的方式进行索引。这一过程包括分析文档内容,创建倒排索引等,以便能够快速检索信息。
- 搜索过程:ES使用按段搜索的概念来执行查询。每个段相当于一个数据集,包含了一系列的文档。提交点记录了所有已知的段,使得搜索操作可以跨越多个段进行。
-
Lucene库的工作原理
- 反向索引(Inverted Index):这是Lucene高效检索数据的关键所在。在正向索引中,我们根据内容的记录来查找内容出现的位置;而在反向索引中,是根据某个词出现的位置来查找这个词,即建立了一个从词到文档的映射关系。
- 数据分段(Segments):Lucene将索引分为多个独立的段,每个段都是只读的。这种设计避免了在读写操作中的锁竞争,显著提高了性能。
- 核心组件:Lucene由多个组件构成,包括IndexWriter负责写入索引、IndexReader负责读取索引,以及QueryParser用于解析查询语句等。这些组件共同作用,实现了索引的建立、查询和优化。
- 文本分析与分词(Analysis & Tokenization):在索引文档之前,Lucene会通过分析器(Analyzer)对文本进行处理,这包括分词、去除停用词、同义词处理等步骤,以确保索引的效率和准确性。
- 查询操作:用户输入查询后,Lucene会对查询语句进行类似的文本分析和处理,然后利用已经建立的反向索引快速找到匹配的文档,并按照相关性对结果进行排序
-
-
常踩的坑
-
聚合分析问题:ES中的聚合操作分为分桶、度量和管道三种类型。在多主分片环境下,可能会出现聚合结果不准确的情况。这是因为在分布式环境中,不同分片间的数据处理可能导致聚合结果的差异。
- 使用更高效的查询:尝试简化查询,减少不必要的字段和复杂的查询逻辑,以提高查询效率。
- 调整分桶策略:对于涉及大量数据和多次分桶的聚合操作,合理设计分桶策略可以减少查询时间。例如,可以考虑使用组合聚合(composite aggregations)来减少聚合的数量。
- 优化索引设置:确保索引的映射和设置能够支持高效的聚合操作。例如,使用适当的分片和副本策略,以及优化索引的存储结构。
- 调整内存分配:增加Elasticsearch的堆内存分配可以提高聚合操作的性能,但这可能会影响其他系统资源的使用。
- 利用缓存:利用Elasticsearch的查询结果缓存机制,对于重复的或经常执行的聚合查询,可以将结果缓存起来,以提高响应速度。
- 使用近似聚合:如果精确度不是特别重要,可以使用近似聚合(如cardinality aggregation)来加快查询速度。
- 调整搜索设置:通过调整搜索设置,比如减小size参数的值,可以加快聚合查询的速度。
- 优化去重操作:对于需要去重的聚合操作,可以尝试使用tophits聚合或者top_hits与collapse结合使用,以提高效率。
-
时区问题:ES底层默认采用UTC时间格式,而不同地区的项目可能需要使用本地时间。这可能导致查询结果与期望不符,特别是在涉及时间排序、范围查询或聚合的场景中。
- 确保数据一致性: 插入时间格式前,统一使用UTC时间格式,避免由于不同时区引起的混乱和不一致
- 程序中处理时区:在Java等编程语言中处理日期时间字符串时,如果字符串没有时区信息,需要明确指定时区来进行转换,以避免默认使用系统时区可能导致的问题。
- 存储类型考虑:对于日期时间类型的字段,存储时应考虑是否需要包含时区信息。如果是时间戳(Long类型),则通常已经是UTC时间,需要在应用层转换为合适的时区。
- Kibana设置时区:在Kibana的管理界面中,您可以在"Management" > "Advanced Settings"下设置时区,以确保在Kibana显示的视图和图表中使用正确的时区
- 默认映射问题:ES允许在写入索引时不设置映射,但这可能导致后续查询效率低下或数据类型错误等问题。因此,合理配置映射对于保证索引的性能和准确性至关重要(建索引时,就要考虑映射索引的类型)
-
走进Elasticsearch
、小H2024-06-21 7:01
相关推荐
在下不上天21 分钟前
Flume日志采集系统的部署,实现flume负载均衡,flume故障恢复智慧化智能化数字化方案1 小时前
华为IPD流程管理体系L1至L5最佳实践-解读PersistJiao2 小时前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景2301_811274312 小时前
大数据基于Spring Boot的化妆品推荐系统的设计与实现Yz98762 小时前
hive的存储格式青云交2 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)武子康2 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结武子康2 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本时差9533 小时前
Flink Standalone集群模式安装部署锵锵锵锵~蒋3 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么