项目总结-ElasticSearch性能优化考虑点
- 一、概述
- 二、硬件层面优化
-
- [2.1 ES硬件层面-内存优化](#2.1 ES硬件层面-内存优化)
- [2.2 ES硬件层面-磁盘优化](#2.2 ES硬件层面-磁盘优化)
- [2.3 ES硬件层面-CPU优化](#2.3 ES硬件层面-CPU优化)
- [2.4 ES硬件层面-网络优化](#2.4 ES硬件层面-网络优化)
- 三、系统层面优化
-
- [3.1 ES系统层面-文件句柄数优化](#3.1 ES系统层面-文件句柄数优化)
- [3.2 ES系统层面-swap优化](#3.2 ES系统层面-swap优化)
- 四、JVM层面优化
-
- [4.1 JVM层面-JVM堆大小优化](#4.1 JVM层面-JVM堆大小优化)
- [4.2 JVM层面-垃圾回收器优化](#4.2 JVM层面-垃圾回收器优化)
-
- [4.2.1 JDK8 + G1 垃圾回收器](#4.2.1 JDK8 + G1 垃圾回收器)
- [4.2.2 jdk17 + ZGC垃圾回收器](#4.2.2 jdk17 + ZGC垃圾回收器)
- 五、集群层面优化
-
- [5.1 节点间通信机制优化](#5.1 节点间通信机制优化)
- [5.2 合理划分节点角色优化](#5.2 合理划分节点角色优化)
- [5.3 数据节点写入优化](#5.3 数据节点写入优化)
- [5.4 数据分片设置](#5.4 数据分片设置)
- 六、索引层面优化
-
- [6.1 避免使用dynamic mapping](#6.1 避免使用dynamic mapping)
- [6.2 合理设置doc_values 和 fielddata](#6.2 合理设置doc_values 和 fielddata)
- [6.3 优化ignore_above 设置](#6.3 优化ignore_above 设置)
- [6.4 调整 _source字段](#6.4 调整 _source字段)
- [6.5 谨慎使用store属性](#6.5 谨慎使用store属性)
- [6.6 关于禁用 _source 字段的考虑](#6.6 关于禁用 _source 字段的考虑)
- [6.7 禁用 all 字段](#6.7 禁用 all 字段)
- [6.8 关闭 Norms 字段](#6.8 关闭 Norms 字段)
- [6.9 谨慎关闭 index_options](#6.9 谨慎关闭 index_options)
- [6.10 合理设置 enabled 属性](#6.10 合理设置 enabled 属性)
- [6.11 max_result_window参数](#6.11 max_result_window参数)
- 七、查询层面优化
-
- [7.1 调整filter过滤顺序, 过滤优先原则](#7.1 调整filter过滤顺序, 过滤优先原则)
- [7.2 使用 Keyword 类型](#7.2 使用 Keyword 类型)
- [7.3 其他考虑点](#7.3 其他考虑点)
- 八、职责分离,全面监控
一、概述
由于项目对于ES应用比较广泛,主要用于对于客户的召回和协同过滤,以及架构在HBase上作为大数据集存储查询的核心,数据量极大,因此二期对ES的性能做优化即为重要工作。
简述ElasticSearch的性能优化,我做的以下方面的考虑:
-
硬件层面:机器分配,机器配置,机器内存,机器CPU,机器网络,机器磁盘性能
-
系统层面:文件句柄优化、swap关闭ElasticSearch集群层面:合理分配节点,合理分配参加竞选Master的节点
-
ElasticSearch 索引层面:副本数量、索引数量、分片数量
-
ElasticSearch查询层面的优化
-
职责分离,全面监控
二、硬件层面优化
2.1 ES硬件层面-内存优化
ES本身是一个内存密集型应用,比较依赖内存,且对内存的消耗也很大,内存对ES的重要性甚至是高于CPU的,即使是数据量不大的业务,为保证服务的稳定性,在满足业务需求的前提下,仍需考虑留有不少于20%的冗余性能。
根据业务量不同,内存的需求也不同,一般生产建议总体 32内存,其中JVM不要少于16G, 需有16G给底层的Luence。
因此合理分配内存对于ES提高性能至关重要:
- 确保系统内存有足够的空间用于文件缓存,而不单单是JVM堆内存。
- 建议将一半的内存分配给Elasticsearch的堆内存,另一半留给操作系统和其他进程。
- 根据业务量不同,内存的需求也不同,一般生产建议总体 32内存,其中JVM 不要少于16G, 还有 16G给底层的Luence。
2.2 ES硬件层面-磁盘优化
对于ES来说,磁盘可能是最重要的,因为数据都是存储在磁盘上的,磁盘性能往往是硬件性能的瓶颈,木桶效应中的最短板。
ES 磁盘优化的最为简单,最为粗暴的方式是:纵向扩展
,就是使用最高性能的 磁盘,比如SSD 固态硬盘。
ES应用可能要面临不间断的大量的数据读取和写入,数据规模非常庞大,项目目前是架构的一个30个节点ES集群,数据量非常庞大,达到1TB 。
众所周知,速度越快,盘越贵,因此不可能都用SSD固态硬盘, 因此采用SSD和机械硬盘组合
使用。
方案:把节点冷热分离
- "热点数据"使用SSD做存储,可以大幅提高系统性能;
- "冷数据"存储在机械硬盘中,降低成本。
- 如果使用磁盘阵列,可以使用RAID 0。
PS:RAID 0是什么
html
RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列):
是一种将多个物理磁盘组合成一个逻辑单元的数据存储虚拟化技术,其目的是提高数据存储的性能、可靠性或两者兼顾。
RAID 0是RAID中一种配置方式,含义:
RAID 0又称为条带化(Striping),将数据分成多个块(条带)分散顺序存储在多个硬盘上。
读取数据时,可以同时从多个硬盘读取,写入数据时同理,数据会被分成多个块并行写入多个硬盘。
理论上RAID 0的读写速度可以达到单个硬盘速度的总和从而提高数据的读写速度。
当然由于没有数据冗余,RAID 0的风险较高。一旦硬盘发生故障,整个RAID 0阵列上的数据都会丢失,因此在使用RAID 0 时需要非常小心,并且定期备份数据。
若对数据安全性要求高,可使用RAID 1(镜像): 多块磁盘冗写,并行读,但性能相对较低。
当然,也可搞多块磁盘做横向扩展。
ES通过多个path.data目录配置,把ES数据条带化分配到使用多块硬盘上面,以提高I/O性能。
方案:配置多个数据存储磁盘路径
在Elasticsearch的配置文件elasticsearch.yml中,可以指定多个数据存储路径(对应到多个磁盘),用逗号分隔。
yml
# 挂载三块硬盘
path.data: /mnt/disk1,/mnt/disk2,/mnt/disk3
ES的分片分配机制:
html
ES在选择存储分片的路径时,会根据一定的逻辑来选择最佳路径。
ES会优先选择磁盘使用率较低(/最为空闲)的磁盘来存储新的分片数据文件。
如果多个路径可用,ES会根据剩余空间和已存储的分片数量来决定将分片分配到哪个路径上。
数据安全问题:
虽然使用多个path.data路径可以提高I/O性能,但这种做法类似于软件层面的RAID 0,没有在磁盘层面做数据冗余
。如果其中一个硬盘发生故障,存储在该硬盘上的所有分片都会丢失。因此需确保每个分片至少有一个副本分片,以防止数据丢失。
综上,系统层面的ES磁盘优化总结:
html
(1)ES应用可能要面临不间断的大量的数据读取和写入,磁盘关系到 ES的性能,建议使用最高速的磁盘设备(如SSD)可以显著提高ES的性能。
(2)当然最高速也是最昂贵的,不可能都用SSD硬盘, 一般是 SSD和机械硬盘组合使用。
(3)合理规划磁盘布局,可以考虑把节点冷热分离, 将数据按照冷热的程度,存储在不同的磁盘上,可以避免磁盘I/O竞争。
(4)使用RAID 0可以提高磁盘I/O,但要注意数据的安全性。
(5)通过多个path.data目录配置,把ES数据条带化分配到使用多块硬盘上面,以提高I/O性能。
(6)避免使用远程挂载的存储,比如NFS或者SMB/CIFS,因为这会引入延迟,影响性能。
2.3 ES硬件层面-CPU优化
对于ES,CPU并非其最依赖的硬件, 提升CPU配置可能不会像提升磁盘或者内存配置带来的性能收益更直接、显著。在成本预算一定的前提下,应该把更多的预算花在磁盘以及内存上面。
ES在处理查询和索引操作时会消耗大量的CPU资源,更多的核心数和线程数意味着更高的并发处理能力。对于ES,通常单节点cpu 4核起步,不同角色的节点对CPU的要求也不同。
方案:角色分离,合理分配节点角色与资源,对线程池进行监控和动态调优
角色分离:
html
主节点(Master)配置在性能稳定、CPU 核心数适中(如 4 - 8 核)的服务器上,专门用于处理集群管理任务;
数据节点(Data)则根据数据量和查询负载,分配具有较高 CPU 核心数(如 16 - 32 核)的服务器,以满足大量数据的索引和查询操作;
协调节点(Coordinating)可以选择 CPU 核心数相对较少(如 8 - 16 核)但网络性能良好的服务器,用于高效地分发和接收查询请求。
线程池监控、动态调优:
ES中有多种线程池,如搜索线程池(search)、索引线程池(index)、批量线程池(bulk)等。
html
搜索线程池(search)大小决定可以同时处理的搜索查询数量
索引线程池(index)大小则影响数据索引的并发处理能力。
线程池大小不应超过 CPU 核心数的两倍,以避免过多的线程竞争 CPU 资源导致性能下降。
使用 ES自带监控 API获取监控数据:
yml
# 发送HTTP GET 请求 v参数用于以详细格式返回结果
http://<es-node-ip>:9200/_cat/thread_pool?v
动态调整线程池大小,解决线程池负载高
,或者 queue 线程池队列中的任务数积压多
yml
# PUT类型的settings 请求
{
"persistent": {
"thread_pool.search.size": 30
}
}
2.4 ES硬件层面-网络优化
建议为ES 使用 低延迟的网络
:节点与节点之间的通信十分的频繁,需保证低延迟,避免跨多个数据中心的ES集群方案。
三、系统层面优化
3.1 ES系统层面-文件句柄数优化
修改ES启动用户可使用的系统文件句柄数,以适应ES的需求。
ES需要大量文件句柄数, 主要两个原因:
html
(1)ES集群有大量的TCP/http 连接需求:大量的节点间频繁通信连接且ES集群有大量的客户端连接
(2)ES集群有大量的索引与数据操作:处理索引时,会涉及到大量的文件操作,ES集群有大量的数据段延时合并,提高查询性能
方案:永久修改文件句柄数
使用vim /etc/security/limits.conf命令编辑该limits.conf 文件,添加或修改以下配置项:
yml
# *表示匹配所有用户,soft为警告值,hard为最大值
* soft nofile 65536
* hard nofile 65536
重新登录系统后,使用ulimit -n
命令查看文件句柄数限制是否已生效
3.2 ES系统层面-swap优化
内存交换到磁盘
对服务器性能来说是致命的。ES建议禁用Swap分区,因为当物理内存不足时,操作系统会将一些内存页交换到磁盘上,这会导致性能急剧下降。
在Linux系统中, 用命令关掉swap:
html
sudo swapoff -a
在Linux系统中使用ES,最好可以通过修改/etc/sysctl.conf文件来禁用Swap分区:
yml
# 在文件末尾添加以下行
vm.swappiness=1
然后运行sudo sysctl -p
使配置生效。
还可以 使用 memlock ,为ES 锁定的物理内存,在 配置文件elasticsearch.yml中添加以下行:
yml
# 需要用户 有memlock权限 可以通过ulimit -l命令查看当前用户的memlock限制,
# 并通过ulimit -l unlimited命令设置无限制(但这通常需要root权限)。
bootstrap.memory_lock: true
在生产环境中,更推荐的方式是通过修改/etc/security/limits.conf文件来永久设置 memlock 限制。
html
* soft memlock [期望的软限制大小]
* hard memlock [期望的硬限制大小]
四、JVM层面优化
4.1 JVM层面-JVM堆大小优化
ES是运行在JVM上的,对其做JVM参数调优至关重要。最常见的调优是Java内存的分配。
老年代和新生代的内存比例为2:1比较合适,在ElasticSearce的配置文件jvm.options文件配置:
html
-Xms3g //配置堆初始化大小
-Xmx3g //配置堆的最大内存
-Xmn1g //配置新生代内存。
为ES分配内存方案:
html
如果 把所有的内存都分配给 Elasticsearch 的堆内存,那将不会有剩余的内存交给 Lucene。这将严重地影响全文检索的性能。
标准的建议是把 50% 的可用内存作为 Elasticsearch 的堆内存,保留剩下的 50%,Lucene 会很乐意利用起余下的内存,也就是把 50% 的可用内存作为 Lucene 的非堆内存(off - heap)。
Lucene 被设计为可以利用操作系统底层机制来缓存内存数据结构,所以这部分Lucene 的非堆内存(off - heap),预留就OK了,不需要专门设置。
JVM 在内存小于 32 GB 的时候会采用一个内存对象指针压缩技术
,因此,即便有足够的内存,分配给Elasticesearch 最大内存应该小于32 GB,因为浪费了内存,降低了 CPU 的性能,还要让 GC 应对大内存。
4.2 JVM层面-垃圾回收器优化
4.2.1 JDK8 + G1 垃圾回收器
若生产环境使用es 6 系列版本(比较稳定),例如:
html
JDK:JDK1.8_171-b11 (64位)
ES集群:一般由3台16核32G的虚拟机部署 ES 集群,每个节点分配16G堆内存
ELK版本:6.3.0
垃圾回收器:ES 默认指定的老年代(CMS)+ 新生代(ParNew)
操作系统:CentOS Linux release 7.4.1708(Core)
ES默认的垃圾回收器( GC )是 CMS
。官方建议使用 CMS。这个垃圾回收器可以和应用并行处理,以便它可以最小化停顿。然而,它有两个 stop-the-world 阶段,但是CMS处理大内存有点吃力。
方案:启用 G1 垃圾回收器
在 Elasticsearch 的 jvm.options文件中,将默认的垃圾回收器设置为 G1。找到以下行(如果不存在可以添加):
html
-XX:+UseG1GC // 使用 G1 垃圾回收器来管理内存
-XX:G1HeapRegionSize // 确定 G1 垃圾回收器的堆内存区域(Region)大小
-XX:MaxGCPauseMillis // 最大停顿时间参数
-XX:InitiatingHeapOccupancyPercent // 调整混合垃圾回收(Mixed GC)的触发条件默认45
4.2.2 jdk17 + ZGC垃圾回收器
如果条件允许,可以升级jdk版本,提升性能,因为:
html
1、jdk17的g1垃圾回收期相较于jdk11,提升到15%左右。
2、在jdk17中,有向量化支持,同时在字符串处理等方面做了一些优化,相对于集群的写入压力会小很多。
3、在jdk17中,对于ZGC的适配有加强,这个ZGC的垃圾回收器比G1稳定性和性能有很大的提升。
关于ZGC做部分介绍:
ZGC垃圾回收器是一个并发的、单代的、基于区域的、NUMA 感知
的垃圾回收器,Stop-the-world 阶段仅限于根扫描
,因此 GC 暂停时间不会随堆或 live set 的变大而增加,而且ZGC垃圾回收期在回收的过程中几乎是全程并发处理
,如图:
html
1、zgc垃圾收集器从jdk11版本开始支持,所以只要是jdk11及以上的版本都支持zgc垃圾收集器。
2、zgc垃圾收集器的由于是并行进行处理,所以生产环境中ZGC的垃圾收集停顿时间不超过10ms,可以放心使用。
3、使用ZGC是并行的进行垃圾回收,所以有时候会发生查询耗时增加的情况,可以在jvm.options文件中添加如下的参数:-XX:+UseDynamicNumberOfGCThreads 代表动态配置GC线程,降低CPU的使用量,这个是JDK17的新特性,在jdk17以下是没有这个参数的。
具体动态参数配置如图:
配置ZGC的垃圾回收器方法:
打开ES的config目录下jvm.options文件,找到如下部分:
因为jdk版本是jdk17,所以找到14-的地方把这里所有的东西注释掉,然后添加代码:
yml
14-:-XX:+UseZGC
14-:-XX:+UnlockExperimentalVMOptions
即是:
然后启动ES,启动完成后在日志中查找下ZGC关键词即可。
五、集群层面优化
ES的核心架构,是节点(Node)和集群(Cluster)组成。
节点是Elasticsearch的运行实例,每个节点都承担着特定的任务和职责。
多个节点组成一个集群,通过分布式的方式存储和处理数据,实现高可用性、可扩展性和高性能。
而节点分为:主节点(Master Node)和 数据节点(Data Node)。
- 主节点
负责管理整个集群的状态,包括节点的加入和离开、索引的创建和删除、分片的分配和迁移等,并不负责处理数据的存储和查询,主要是维护集群的元数据和协调各个节点的工作。在ES的配置文件中设置节点为主节点:
html
node.name: master-node
node.master: true
node.data: false
ES集群只能有一个真正主节点。
- 数据节点
负责存储和检索数据。它是集群中最核心的节点类型,负责处理文档的索引和查询操作。数据节点会将数据按照一定的规则进行分片存储,以实现数据的分布式存储和并行处理。数据节点的配置:
html
node.name: data-node
node.master: false
node.data: true
- 协调节点
负责接收客户端的查询请求,并将请求转发到合适的数据节点进行处理。协调节点会收集各个数据节点的查询结果,并进行合并和排序,最终将结果返回给客户端。协调节点本身不存储数据,它的主要作用是协调和管理查询请求的处理过程。协调节点的配置:
html
node.name: coordinating-node
node.master: false
node.data: false
node.ingest: false
search.remote.connect: false
5.1 节点间通信机制优化
ES节点间通过 TCP 协议进行通信,基于请求-响应模型。
ES采用的一些优化措施:
html
连接池:节点会维护一个连接池,用于管理与其他节点的连接。连接池可以复用已建立的连接,减少连接的建立和销毁开销。
消息压缩:在节点之间传输消息时,Elasticsearch会对消息进行压缩,以减少网络传输的数据量。
异步通信:节点之间的通信采用异步方式,发送请求后可以继续执行其他操作,不需要等待响应返回。
5.2 合理划分节点角色优化
主节点(Master)配置:minimum_master_nodes 设置极其重要,用于定义在集群中可以正常选举主节点(Master)的最少候选主节点数量,为防止集群脑裂,这个参数应该设置为法定个数就是 ( master 候选节点个数 / 2) + 1。
数据节点(Data)配置:评估单文档数据量与节点存储容量规划,以及规划分片大小保持在 10GB 至 50GB 之间与副本数量设置为 1 至 2 个。
协调节点(Coordinating)配置:可按照一定的比例(如每 10 个数据节点配置 2 - 3 个协调节点)来配置。
5.3 数据节点写入优化
为减少频繁的索引文件产生,ES 数据写入具有一定的延时性。而且在搜索引擎的业务场景下,用户一般并不需要那么高的写入实时性。
ES每秒生成一个 segment 文件
或者缓冲区写满也会生成 Segment 文件
,当达到一定阈值的时候 会执行merge,merge 过程发生在JVM中,频繁的生成Segmen文件可能会导致频繁的触发FGC,导致 OOM。需要增加时间阈值和增大Buffer的空间阈值降低segment文件的生成频率。
方案:
(1)修改flush频率:写入以提升写入吞吐量和并发能力为目标,而非提升写入实时性,增加 flush刷盘时间间隔来减小数据写入磁盘的频率,减小磁盘IO频率。
flush操作主要是将索引缓冲区(Index Buffer)中的数据刷新到磁盘上的索引文件中,同时更新索引的相关元数据,如提交点(Commit Point)等。
配置文件修改flush时间间隔: ES的elasticsearch.yml配置文件中,参数index.translog.flush_threshold_period用于控制flush的时间间隔,默认值是30s,改为:index.translog.flush_threshold_period: 60s
,并重启。
(2)增加refresh_interval的参数值来控制索引数据可见性。
该参数用于定义索引数据被刷新(Refresh)的时间间隔。当新的数据写入索引后,并不是立即可以被搜索到,而是要等待索引被刷新
。刷新操作会使新写入的数据对搜索可见。设置为:index.refresh_interval: 30s
将所有新创建的索引的刷新间隔设置为 30 秒。
若需要特定索引设置:
html
PUT http://<es - node - ip>:9200/<index - name>/_settings
{
"index": {
"refresh_interval": "30s"
}
}
此方式可以在不重启 ES的情况下,动态修改特定索引的刷新间隔。
(3)写入时增加Buffer大小,同时关闭副本来暂停搜索服务,或选择在检索请求量谷值区间时间段来完成。
可通过则设置index.number_of_replicas 为0以加快索引速度。初始加载完成后,可以设置该值为其原始值。可能会导致数据丢失。
5.4 数据分片设置
预估原则:
html
(1)控制每个分片占用的硬盘容量,不超过ES的最大JVM的堆空间设置(一般设置不超过32G,参加上文的JVM设置原则),
因此,如果索引的总容量在500G左右,那分片大小在16个左右即可。
(2)一般都设置分片数不超过节点数的3倍。
考虑node数量,一般一个节点可能就是一台物理机,如果分片数过多,大大超过节点数,很可能会导致一个节点上存在多个分片,一旦该节点故障,即使保持1个以上的副本,同样有可能会导致数据丢失,集群无法恢复。
所以, 一般都设置分片数不超过节点数的3倍。
分片策略:
html
(1)ES在分配单个索引的分片时会将每个分片尽可能分配到更多的节点上。但是,实际情况取决于集群拥有的分片和索引的数量以及它们的大小,不一定总是能均匀地分布。
(2)Paimary只能在索引创建时配置数量,而replica可以在任何时间分配,并且primary支持读和写操作,而replica只支持客户端的读取操作,数据由es自动管理,从primary同步。
(3)ES不允许Primary和它的Replica放在同一个节点中,并且同一个节点不接受完全相同的两个Replica
(4)同一个节点允许多个索引的分片同时存在。
分片数量:分片越少越好,分片的合理容量在10GB-50GB。
六、索引层面优化
6.1 避免使用dynamic mapping
不要让ES自动根据新插入的数据来推测字段类型并创建映射。而是在创建索引时,提前明确地定义好每个字段的类型、属性(如是否存储、是否索引、分词器等)。这样可以避免因数据类型不一致导致的索引混乱和性能问题,同时也能更好地控制索引的结构和资源占用。
6.2 合理设置doc_values 和 fielddata
doc_values是ES中一种用于存储正排索引
的数据结构,对于每个文档中的字段以列式存储方式
记录其数据。
是在索引构建阶段就被创建并存储在磁盘上的,主要用于快速基于字段进行排序、聚合和脚本计算
等操作。当执行这些操作时,ES会从磁盘读取 doc_values 数据,而不需要重新解析原始的文档源(_source)数据,极大提高这些操作的效率。
对于不需要进行聚合操作的字段,关闭不需要的doc_values,在索引映射(Mapping)中设置"doc_values": false,以节省磁盘空间和资源消耗,提高查询速度。
使用以下的索引映射定义来关闭content字段的 doc_values:
json
PUT /my_index
{
"mappings": {
"properties": {
"title": {
"type": "text",
"doc_values": true
},
"content": {
"type": "text",
"doc_values": false
}
}
}
}
fielddata 与 doc_values 不同,fielddata 是在运行时(runtime)构建的,并且存储在 JVM 堆内存中。是弥补 text 类型字段在默认情况下无法进行聚合操作的不足。
当对 text 类型字段进行聚合操作时,ES会将该字段的所有词项(terms)加载到 fielddata 缓存中。谨慎使用fielddata,因为会占用大量的 JVM 堆内存空间。如果确实需要对某个字段进行聚合操作,且该字段数据量较大,需提前规划好 JVM 内存设置,防止出现 OutOfMemoryError(OOM)。同时,尽量避免在高并发或大数据量聚合场景下频繁使用 fielddata。创建新索引时关闭 fielddata:
json
PUT /new_index
{
"mappings": {
"properties": {
"product_name": {
"type": "text",
"fielddata": false
},
"product_description": {
"type": "text",
"fielddata": false
}
}
}
}
启用特定聚合功能但不使用 fielddata,对于一些文本字段,如果需要进行简单的聚合操作,如统计不同词条的文档计数(这是一种比较常见的聚合场景),可以考虑使用keyword类型来代替text类型。
6.3 优化ignore_above 设置
对于字符串类型的字段,根据业务需求合理设置ignore_above参数。
该参数指定了字符串字段的最大长度,超过此长度的文本将被忽略。
将其设置得越小越好,但要确保不会丢失重要的业务数据。
例如,在一个金融产品资讯索引中,如果业务只关心资讯的前 100 个字符用于搜索和分析,那可将资讯内容字段的ignore_above设置为 100,这样可以减少索引的大小和资源消耗,同时提高查询性能。
6.4 调整 _source字段
通过_source字段的include和exclude参数来精细控制哪些字段需要存储在_source中。只保留对业务查询和显示有必要的字段,避免存储过多不必要的字段数据,以节省磁盘空间和网络带宽。
如使用:
html
"_source": {"includes": ["title", "publish_time", "body.substring(0,200)"]}
来配置_source字段,只获取资讯标题、发布时间和正文的前 200 个字符,排除其他不需要的字段。
6.5 谨慎使用store属性
对于一些需要频繁访问但又不想每次都从_source中提取的字段,可以考虑使用store属性为其开辟单独的存储空间。
这样在查询时可以直接从存储的字段中获取数据,而无需解析_source,从而节省网络带宽和查询时间。
但要注意,过多地使用store属性会增加磁盘空间的占用,所以需要根据字段的访问频率和重要性进行权衡。
设对某个字段设置"store": true
可快速获取该字段的值
6.6 关于禁用 _source 字段的考虑
虽然禁用_source字段可以节省大量磁盘空间,但在决定禁用之前,必须充分考虑其带来的后果:
html
由于update、update_by_query和reindex操作都依赖于_source字段,禁用后这些操作将不可用。如果业务可能需要对索引数据进行更新或重新索引,那么禁用_source字段可能会带来不便。
禁用_source字段会导致高亮显示功能失效,因为高亮显示通常是基于_source中的原始文本进行的。如果搜索结果需要高亮显示匹配的关键词,那么禁用_source字段就不适合。
禁用_source字段会影响索引的容灾能力,因为在数据丢失或损坏的情况下,没有_source字段将难以恢复原始数据。因此,除非对磁盘空间有极其严格的限制,并且确定上述功能在业务中几乎不会用到,否则不建议轻易禁用_source字段。
6.7 禁用 all 字段
在 ES6.0 及以上版本中,all字段默认是关闭的。
6.8 关闭 Norms 字段
对于那些确定不需要用于计算文档相关性评分(如在过滤查询和聚合操作中使用的字段),在索引映射中设置"norms": false
。这样可以节省大量的磁盘空间,尤其是对于那些包含大量文本的字段。
6.9 谨慎关闭 index_options
index_options参数控制着在索引创建过程中哪些信息会被添加到倒排索引文件中,如词频(TF)、文档频率(docCount)、位置(postion)、偏移量(offsets)等。减少这些选项可以降低索引创建时的 CPU 占用率,但需要谨慎操作。因为在实际业务中,很难预先确定将来是否会用到这些信息。
6.10 合理设置 enabled 属性
对于那些不需要进行查询操作的字段,在索引映射中设置"enabled": false
,以避免创建不必要的倒排索引,从而节省磁盘空间和资源消耗。
6.11 max_result_window参数
max_result_window是分页返回的最大数值,默认值为10000。max_result_window本身是对JVM的一种保护机制,通过设定一个合理的阈值,避免分页查询时由于单页数据过大而导致OOM。
七、查询层面优化
避免使用稀疏数据
,Filter的工作原理表明每次工作都是遍历整个索引。时间粒度越大,对比越快,搜索时间越短,在不影响功能的情况下,时间精度越低越好
,有时甚至牺牲一点精度也值得,当然最好的情况是根本不作时间限制。 es重新刷索引,增加冗余的时间字段,精确到天。带有时间范围的查询使用该字段进行查询。
查询Fetch Source优化
:不要从source中获取非必须的字段。
'数据预索引'查询优化
:通过预先识别查询中的常见模式处理和索引数据来提高查询性能的技术。
7.1 调整filter过滤顺序, 过滤优先原则
过滤器(如term、range等)通常比全文查询(如match) 更快,优先使用过滤器,可以显著提高查询性能,因为 filters 可以被缓存,而全文查询(如match)则不可以被缓存。
例如:未优化查询:
html
GET /products/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": "apple"
}
}
],
"filter": [
{
"term": {
"category": "fruit"
}
},
{
"range": {
"price": {
"lte": 100
}
}
}
]
}
}
}
使用match查询来搜索名称中包含"apple"的商品,然后使用filter来过滤属于"fruit"分类且价格不超过100的商品。
优化后的查询:
html
GET /products/_search
{
"query": {
"bool": {
"must": [
{
"bool": {
"filter": [
{
"term": {
"category": "fruit"
}
},
{
"range": {
"price": {
"lte": 100
}
}
}
]
}
},
{
"match": {
"name": "apple"
}
}
]
}
}
}
首先使用bool查询的filter子句来过滤出属于"fruit"分类且价格不超过100的商品,然后再使用match查询来搜索名称中包含"apple"的商品。这样,match查询只需要在已经过滤过的文档集上运行,从而提高查询效率。
7.2 使用 Keyword 类型
ES中,并非所有数值数据都应映射为数值字段数据类型,ES为数值数据
提供查询优化 ,例如integer 、 long。 如果不需要范围查找
,对于term查询而言,keyword 比 integer 性能更好。
keyword 和 integer 类型的两大不同:keyword 和 integer 类型的 数据存储结构差异 和 索引构建和查询优化机制不同。
7.3 其他考虑点
避免使用脚本:Scripting是Elasticsearch支持的一种专门用于复杂场景下支持自定义编程的强大的脚本功能。相对于 DSL 而言,脚本的性能更差,DSL能解决 80% 以上的查询需求,如非必须,尽量避免使用 Script。
避免单次召回大量数据:搜索引擎最擅长的事情是从海量数据中查询少量相关文档,而非单次检索大量文档。非常不建议动辄查询上万数据。如果有这样的需求,建议使用滚动查询。
避免单个文档过大:鉴于默认http.max_content_length设置为 100MB,ES将拒绝索引任何大于该值的文档。若决定增加该特定设置,但 Lucene 仍然有大约 2GB 的限制。
单次查询10条文档 优于10次查询每次一条:批量请求将产生比单文档索引请求更好的性能。
避免 Nested 内嵌 和 Join 连接:Nested针对字段值为非基本数据类型的时候,而Join则用于 当子文档数量级非常大的时候。
使用filter代替query:query和filter的主要区别在: filter是结果导向的而query是过程导向。
避免深度分页:避免单页数据过大,可参考百度或者淘宝的做法。ES提供两种解决方案 scroll search 和 search after。
预索引: '数据预索引'查询优化:利用查询中的模式来优化数据的索引方式。
例如,如果所有文档都有一个price字段,并且大多数查询 range 在固定的范围列表上运行聚合,可以通过将范围预先索引到索引中并使用聚合来加快聚合速度。
案例:按照用户的年龄范围来进行聚合查询,例如统计不同年龄区间(如 18 - 25 岁、26 - 35 岁、36 - 45 岁等)内购买各类商品的数量、金额等指标。
优化前的查询操作:
html
{
"size": 0,
"aggs": {
"age_ranges": {
"range": {
"field": "user_age",
"ranges": [
{
"from": 18,
"to": 25
},
{
"from": 26,
"to": 35
},
{
"from": 36,
"to": 45
}
]
},
"aggs": {
"total_sales": {
"sum": {
"field": "price"
}
}
}
}
}
}
结果是:查询响应时间可能会逐渐变长,影响业务人员获取数据的效率。
优化:
预聚合数据设计,新增一个字段,比如叫 age_group
age_group 的值根据 user_age 字段预先划分好的区间来确定。
html
当 user_age 在 18 - 25 岁之间时,age_group 的值设为 18-25。
当 user_age 在 26 - 35 岁之间时,age_group 的值设为 26-35,
以此类推。
Logstash 配置片段:
html
filter {
if [user_age] >= 18 && [user_age] <= 25 {
mutate {
add_field => { "age_group" => "18-25" }
}
} else if [user_age] > 25 && [user_age] <= 35 {
mutate {
add_field => { "age_group" => "26-35" }
}
}
# 其他年龄区间的判断逻辑依次添加
}
现在,当业务人员想要查询不同年龄区间的商品销售总额时,就可以使用基于 age_group 字段的更简单高效的聚合查询语句:
html
{
"size": 0,
"aggs": {
"age_groups": {
"terms": {
"field": "age_group",
"size": 10
},
"aggs": {
"total_sales": {
"sum": {
"field": "price"
}
}
}
}
}
}
优化效果对比:
html
性能提升: 在未进行预索引数据查询优化之前,对于千万级别的订单数据进行年龄范围聚合查询,平均响应时间可能在 5 - 10 秒左右,随着数据量继续增加,响应时间还会进一步拉长。而经过优化后,同样的数据量下,查询响应时间可以缩短到 1 - 2 秒以内,大大提高了业务人员获取数据进行分析的效率。
资源利用优化: 从 ElasticSearch 集群的资源角度来看,未优化时,复杂的范围聚合查询需要占用较多的 CPU 资源来进行实时的年龄区间划分和数据计算。优化后,由于是基于预聚合的字段进行简单的分组统计,对 CPU 的消耗大幅降低,同时也减少了内存中临时数据的占用,使得集群整体可以更高效地处理更多的查询请求,提升了集群的资源利用率。
八、职责分离,全面监控
当某个单一角色所负责的业务,或某个单一节点无法满足其业务需要的时候,最好的策略就是 解耦和分离, 常见的操作如:
html
功能分离:本质上也利于服务的轻量化, 百度 搜索引擎的内部人员 聊过 ,百度内部就是基于 Elasticsearch 的源码做修改,删除对其业务不需要的代码,对 ES做轻量化处理
业务分离:最简单常见的场景,当我在全文检索服务的时候,应避免在服务期间去执行大量的聚合分析。
读写分离:常见操作,不做过多解释
冷热分离:基于索引生命周期管理策略下的性能动态分配策略。
另外, 为更高的性能, 需要进行密切的、全面的指标监控:
html
定期监控集群的健康状况和资源使用情况,以便及时做出调整。
监控线程池的情况,进行在线的扩容
根据实际需求调整索引设置,比如分片数、副本数等。
考虑使用冷热架构,将活跃数据放在高性能节点上,历史数据则可以迁移到成本更低、性能稍弱的节点上。
项目通过上述措施,可有效地优化ES集群在硬件层面的性能。