「阅读」数据密集型系统设计 第六章 分区

文章目录

6.1 介绍

  1. 什么是分区?
    分区是通过特定列的值将数据划分为逻辑独立的部分,每个分区是一个数据子集。
    常见的可以用于分区的维度:时间、地理位置、类别等
  2. 分区的好处?
    1. 提高查询性能:只扫描某个表而不是整张表
    2. 提高管理和维护数据的能力:数据通过某个维度进行组织。
  3. 为什么有分区技术?
    分区技术的初衷:针对海量数据场景,提高获取/更新数据的性能
    分区技术和可伸缩性契合。

6.2 如何实现分区?

6.2.1 键值数据分区

目标

将数据和查询负载均匀分布到各个节点中。

方案一:随机分配

随机分配可以保证负载均衡,但是当读取一个特定值时,无法知道该值在那个分区,只能遍历全表。

方案二:根据键的范围分区

定义:每个分区定义一个最小值和最大值。

优点:

  1. 查询时可以找到迅速找到分区
    缺点:
  2. 数据分布无法保证均匀,可能会导致某个(些)分区成为"热点"

方案三:散列(hash)分区--一致性哈希算法

优点:

  1. 可以公平的分配键,负载比较均衡
    缺点:
  2. 范围查询性能没有提升

6.2.2 分区和次级索引

次级索引的分区问题

当前数据库,例如 mysql、oracle 中,分区键中必须是主键的一部分,因此主键是可以快速定位到分区的。

但是次级索引列和分区键可能是两个不同的列,通过次级索引列的每次操作,就需要对所有数据进行操作。

参考资料:mysql 分区键为什么必须是主键的一部分

方案一:基于文档的分区-本地索引

这种索引优点:

  • 每个分区完全独立,只需要处理当前分区中的信息

缺点

  • 不会将某种特定的 key 放在一起(color 所有数据),导致搜索时必须全表扫描

应用的数据库如 MongoDB、Elasticsearch 等。

方案二:基于关键词的分区-全局索引

构建一个覆盖所有分区数据的全局索引。全局索引也不可以放在一个节点上,需要进行分区。

优点:

  • 读取效率更高

缺点:

  • 写入速度慢 && 复杂
  • 需要跨分区的事务

6.2.3 分区再平衡问题 && 解决方案

问题介绍

随时间推移,数据库以下情况都需要数据 && 请求从一个节点转移到另一个节点种,将负载从一个节点转移到另一个节点的过程称为再平衡

  • 查询吞吐量增加
  • 数据集大小增加
  • 机器故障

再平衡目标:

  • 负载应该公平
  • 再平衡进行中,服务可用
  • 节点间移动的数据应该尽量少

策略一:hash && Mod N(不推荐)

策略执行:先对 key 进行 hash,对结果通过 mod n 分区。

节点数量 n 增加时,大量原有数据必须迁移,成本过大。

策略二:固定数量分区

分区数量 > 节点数量,每个节点分配多个分区。

优点:

  • 分区在节点种移动
  • 分区总数不变
    缺点:
  • 无法很好的评估分区数量

策略三:动态分区

采用关键字区间分区的数据库,如果边界设置有问题,可能导致数据倾斜到一个分区中。

  • 按键的范围进行分区的数据库(如HBase和RethinkDB)会动态创建分区。
  • 当分区增长到超过配置的大小时(在HBase上,默认值是10GB),会被分成两个分区,每个分区约占一半的数据。
  • 与之相反,如果大量数据被删除并且分区缩小到某个阈值以下,则可以将其与相邻分区合并。此过程与B树顶层发生的过程类似。
    优点:
  • 分区数量适应总数据量
    缺点:
  • 空数据库从 1 个分区开始,导致所有写入必须单个节点处理,其他节点空闲。

策略四:按照节点比例分区

动态分区和固定数量的分区,分区数量都与节点数量无关。

Cassandra和Ketama使用的第三种方法是使分区数与节点数成正比:每个节点有固定数量的分区。

  • 当节点数不变,分区大小与数据集大小成比例增长;
  • 当节点数改变,分区大小将变小。

操作方式:

  • 当一个新节点加入集群时,它随机选择固定数量的现有分区进行拆分,然后占有这些拆分分区中每个分区的一半,同时将每个分区的另一半留在原地。
  • 随机化可能会产生不公平的分割,但是平均在更大数量的分区上时,新节点最终从现有节点获得公平的负载份额。
  • 随机选择分区边界要求使用基于散列的分区(可以从散列函数产生的数字范围中挑选边界)。实际上,这种方法最符合一致性哈希的原始定义。
相关推荐
Somnus陳3 小时前
软考架构师笔记-计算机系统组成-1
笔记·系统架构
Hi-Dison14 小时前
详细分析openharmony的这个配置文件
系统架构
qq_1715388521 小时前
利用Spring Cloud Gateway Predicate优化微服务路由策略
android·javascript·微服务
科技互联人生1 天前
微服务常用的中间件及其用途
微服务·中间件·系统架构
小蜗牛慢慢爬行1 天前
如何在 Spring Boot 微服务中设置和管理多个数据库
java·数据库·spring boot·后端·微服务·架构·hibernate
不止会JS1 天前
软考:系统架构设计师教材笔记(持续更新中)
系统架构·软件工程·软考
小扳1 天前
微服务篇-深入了解 MinIO 文件服务器(你还在使用阿里云 0SS 对象存储图片服务?教你使用 MinIO 文件服务器:实现从部署到具体使用)
java·服务器·分布式·微服务·云原生·架构
DT辰白2 天前
如何解决基于 Redis 的网关鉴权导致的 RESTful API 拦截问题?
后端·微服务·架构
老猿讲编程2 天前
技术发展历程:从 CORBA 到微服务
微服务·云原生·架构
碳学长2 天前
2025系统架构师(一考就过):案例题之一:嵌入式架构、大数据架构、ISA
大数据·架构·系统架构