Golang|分布式索引架构

  • 当文档数量巨大时,如一亿个文档,倒排索引难以全部放入单机内存。
  • 正排索引将热数据和冷数据分别存储在内存和磁盘中。
  • 分布式搜索引擎将数据分布在不同服务器上以应对大量数据。

  • 倒排索引的水平切分
  • 水平切分按关键词划分数据,如JAVA和算法在A服务器,专家和北京在B服务器。
  • 水平切分的优点是搜索关键词快速,缺点是多关键词搜索需要从多台服务器获取数据并归并。
  • 水平切分存在正排索引冗余存储的问题,浪费存储空间,比如上面文档1在多个倒排链上都存在,就意味着在A和B服务器上都有对应的冗余文件。

  • 倒排索引的垂直切分
  • 垂直切分每台服务器存储所有关键词,但链条减少。
  • 垂直切分的优点是搜索功能在某台服务器宕机时仍可使用,缺点是搜索速度取决于最慢的服务器。
  • 垂直切分的代码编写简单,搜索请求在每台服务器上独立处理后合并结果。

  • 分布式索引架构
  • 分布式架构包括多个worker,每个worker上存储正排索引和倒排索引。
  • 数据被平分为三份,每份分配给一个group,group内部有两台worker进行备份和负载分担。
  • 服务注册中心(etcd)负责决定请求走向哪个group,负载均衡策略选择具体的worker。
  • worker通过etcd进行服务注册和发现,知道其他worker的IP和端口号。
  • 可选的proxy层可以缓存连接和进行限流保护。

  • etcd 作为服务注册中心。
  • etcd 是一个 开源、分布式、高可用 的 键值对(key-value)存储系统。
  • 主要用于存储和管理集群配置、服务发现信息等关键数据。
  • 常用于 Kubernetes 的核心组件中(比如 k8s 的存储后端就是 etcd)。
相关推荐
0wioiw03 分钟前
Go基础(⑦实例和依赖注入)
开发语言·golang
会跑的葫芦怪4 分钟前
Go test 命令完整指南:从基础到高级用法
开发语言·后端·golang
大飞pkz15 分钟前
【设计模式】代理模式
开发语言·设计模式·c#·代理模式
IT小番茄18 分钟前
AI赋能铁路钢轨铺设:智能化施工实施方案
架构
JAVA学习通27 分钟前
微服务项目->在线oj系统(Java-Spring)--增删改
java·开发语言·spring
闲人编程27 分钟前
告别Print: Python调试入门,用PDB高效找Bug
开发语言·python·bug·调试·pdb·断点设置
AI量化投资实验室30 分钟前
年化422%,回撤7%,夏普比5.4| Deap因子挖掘新增qlib因子库,附python代码
开发语言·python
Cache技术分享32 分钟前
203. Java 异常 - Throwable 类及其子类
前端·后端
用户40993225021234 分钟前
PostgreSQL索引这么玩,才能让你的查询真的“飞”起来?
后端·ai编程·trae
道可到34 分钟前
字节面试 Java 面试通关笔记 03| java 如何实现的动态加载(面试可复述版)
java·后端·面试