ElasticSearch常用优化点

  1. 关闭交换分区:因为Linux采用了三级页表虚存管理,关闭交换分区可以减少系统IO,页面换入唤出时所耗费的总线时间以及减少系统中断次数;swap的使用会显著增加延迟和降低吞吐量。
  2. 文件描述符配置:任何网络应用都需要增加文件描述符的数量,默认进程的文件描述符是1024. 我们进行网络IO,打开文件,管道,内存映射等操作都需要文件描述符资源;一般调整到65532;
  3. JVM内存设置: max(节点系统内存/2, 32G),因为JVM有一项技术叫指针压缩技术,如果地址大于4字节的,无法压缩到4字节,只能用8个字节存放地址,造成内存浪费,另外,内存越大,从概率上来讲,GC的effort越大,时间越长。另外,真正在工作的是Lucene分片,也需要给他预留足够的内存;
  4. mlock技术:用C语言写过服务的同学队mlock这个系统调用应该不会感到陌生,这个可以使得堆内存被锁定,不被MMU进行换入唤出,对高并发服务端系统这个是必须的,就像我们对于一些高并发的C语言系统,需要自己使用伙伴算法和slab/slob内存管理算法管理内存;
  5. 线程池和队列大小:ES并发处理请求的能力,根据业务自行调整,不建议非常大;
  6. 建索引:不建议大报文频繁建索引,可以把写入过程理解为一次embeding,只不过我们用的是非常简单的TF-IDF算法,分词越多,生成的倒排索引规模越大,对性能消耗越大,对于一些复杂的embeding算法,更加建议使用向量数据库。一般只对需要搜索的字段建索引,然后由上层应用去聚合输出;
  7. 根据业务优先级,紧急程度,使用队列消峰限速写入ES;
相关推荐
alan072118 分钟前
【Java + Elasticsearch全量 & 增量同步实战】
java·elasticsearch·jenkins
AI营销前沿21 分钟前
私域AI首倡者韩剑,原圈科技领航AI营销
大数据·人工智能
Percent_bigdata29 分钟前
数据治理平台选型解析:AI大模型与智能体如何重塑企业数字基座
大数据·人工智能
hg011831 分钟前
广西对外农业投资规模稳增 民营企业成主力军
大数据
雪兽软件1 小时前
“大数据”能提供什么帮助?
大数据
事变天下1 小时前
肾尚科技完成新一轮融资,加速慢性肾脏病(CKD)精准化管理闭环渗透
大数据·人工智能
GEO AI搜索优化助手1 小时前
范式革命——从“关键词”到“意图理解”,搜索本质的演进与重构
人工智能·搜索引擎·生成式引擎优化·ai优化·geo搜索优化
大刘讲IT1 小时前
2025年企业级 AI Agent 标准化落地深度年度总结:从“对话”到“端到端价值闭环”的范式重构
大数据·人工智能·程序人生·ai·重构·制造
wang_yb1 小时前
掌握相关性分析:读懂数据间的“悄悄话”
大数据·databook
企业智能研究2 小时前
数据分析Agent白皮书:揭秘Data x AI的底层逻辑与未来关键
大数据·人工智能·数据分析