ceph 笔记 - 技术栈

01 简述Ceph的优势及其特点？

Ceph是一个开源的分布式存储系统，具有以下优势和特点：

可扩展性：Ceph可以轻松地扩展到大规模的存储集群，支持数百或数千个节点，并能够处理PB级别的数据。
弹性和高可用性：Ceph采用了复制和纠删码等机制来保证数据的弹性和高可用性。它在集群中自动复制数据副本，并且能够容忍多个故障或节点失效。
统一的存储系统：Ceph提供了统一的接口和命名空间，使用户可以以各种方式访问数据，包括对象存储、文件系统和块设备。这简化了应用程序与存储交互的复杂性。
自我管理：Ceph具有自动管理和自恢复的功能。当有新节点加入或离开集群时，Ceph会自动重新平衡数据和重新配置资源。它还可以自动修复或重建丢失或损坏的数据。
高性能：Ceph通过并行和分布式处理，以及智能的数据放置策略，实现了高性能的存储和检索操作。它能够充分利用集群中的各个节点和硬件资源。
灵活性：Ceph支持多种存储介质和硬件配置。它可以与各种硬件和存储设备集成，包括传统的磁盘驱动器、固态驱动器（SSD）和闪存。
开源社区支持：Ceph是一个活跃的开源项目，有一个庞大的社区支持和贡献。这使得Ceph能够不断改进和演进，同时提供广泛的文档和资源。

总之，Ceph是一个具有可扩展性、弹性、高可用性和高性能的分布式存储系统，通过统一的接口和自我管理的特点，为应用程序提供了灵活且可靠的存储解决方案。

02 CRUSH算法

CRUSH（Controlled Replication Under Scalable Hashing）算法是一种用于分布式存储系统的数据分布和数据冗余策略的算法。它的目标是将数据可靠地存储在多个节点上，同时实现数据的均匀分布和高度可扩展性。

以下是对CRUSH算法的通俗易懂解释：

数据分布：CRUSH算法负责将数据分布在存储集群的各个节点上，确保数据在不同节点之间均匀分散。这有助于提高性能和数据的容错性。
存储设备：CRUSH将存储集群中的节点和存储设备抽象为一个层次结构，就像树状结构一样。根节点表示整个集群，分支节点表示不同的机架或数据中心，叶子节点表示实际存储设备。
映射规则：CRUSH定义了一种规则，用于将数据对象映射到特定的存储设备。这个规则基于一种叫做"CRUSH映射"的算法，它考虑了数据对象的属性以及存储设备的位置信息。
数据冗余：CRUSH算法也负责在不同节点上复制数据，以实现数据的冗余。这可以确保即使某个节点或存储设备发生故障，数据仍然可用。
可扩展性：CRUSH算法的设计使得它能够轻松应对集群的扩展，无论是增加存储设备还是节点，都可以有效地管理数据分布。

总之，CRUSH算法是一种用于分布式存储系统的智能数据分布和冗余策略，它通过考虑数据属性和存储设备的位置，将数据均匀地分布在集群中，同时确保数据的可靠性和高度可扩展性。这有助于提高分布式存储系统的性能和可靠性。

03 简述Ceph存储体系架构？

Ceph是一个开源的分布式存储系统，其存储体系架构包括以下关键组件和层次结构：

RADOS（Reliable Autonomic Distributed Object Store可靠的自主分布式对象存储） ：
- RADOS是Ceph的核心存储层，它将数据分成小的对象，并在多个存储节点之间复制和分布这些对象，以实现高可用性和容错性。

当我们谈论Ceph架构时，可以将其比喻为一个分布式存储系统的大脑和身体。

首先，我们有一个或多个称为监视器（Monitors）的大脑。这些监视器负责管理整个Ceph集群，跟踪存储元数据、管理集群状态和配置信息等。它们还负责处理客户端请求，帮助客户端找到正确的存储位置。

然后，我们有一组对象存储设备，比如硬盘，它们就像Ceph的身体。Pools（存储池）是RADOS中的逻辑容器，用于组织和管理对象。可以将存储池看作是一组相关的对象的集合，类似于文件夹或目录。每个存储池可以根据需要创建，并具有自己的设置和配置。例如，你可以创建一个存储池用于存储数据库备份，另一个存储池用于存储视频文件。

接下来是一组称为OSDs（Object Storage Daemons）的节点，它们是Ceph存储集群的工作马。每个OSD负责管理一块物理存储设备，并将数据划分成小的存储块。它们负责数据的读取、写入、复制和恢复，以及保持数据的可靠性和高可用性。

此外，Ceph使用CRUSH算法来决定数据在存储集群中的位置。CRUSH算法确保数据在各个存储设备之间均衡地分布，同时考虑设备的容量和负载情况。这样可以实现数据的高性能访问和冗余备份。

最后，我们有客户端应用程序或用户，它们通过网络与Ceph集群进行交互，读取和写入数据。客户端可以使用各种接口，如对象存储接口、文件系统接口或块设备接口来访问和操作数据。

RADOS GW和RBD：RADOS GateWay、RBD其作用是在librados库的基础上提供抽象层次更高、更便于应用或客户端使用的上层接口。其中，RADOS GW是一个提供与Amazon S3和Swift兼容的RESTful API的gateway，以供相应的对象存储应用开发使用。RBD则提供了一个标准的块设备接口，常用于在虚拟化的场景下为虚拟机创建volume。

CEPHFS：CEPHFS则提供了POSIX接口，用户可直接通过客户端挂载使用。

综上所述，Ceph架构由监视器、对象存储设备、OSD节点和客户端组成，通过CRUSH算法来实现数据的分布和管理。这个分布式存储系统的设计使得数据在大规模环境下具有高性能、可靠性和可扩展性，并为用户提供灵活的存储解决方案。

04 简述ceph pool 有几种类型？

Ceph中的Pool是一种用于组织和管理数据的存储单元，它可以根据不同的需求和用途进行配置。通常情况下，Ceph支持三种主要类型的Pool：

Replicated Pools（复制池）：
- 复制池是最常见的一种Pool类型。在复制池中，数据对象会被复制到多个存储节点上，以提供高可用性和冗余。如果一个存储节点发生故障，数据仍然可以从其他副本中恢复。
- 复制池适用于需要高可靠性和冗余的应用场景，但它可能会消耗更多的存储空间，因为每个对象都有多个副本。
Erasure-coded Pools（纠删码池）：
- 纠删码池使用纠删码编码技术，将数据切割成小块，并对这些块进行编码。然后，这些编码块会分散存储在不同的存储节点上，以实现数据的冗余和可用性。
- 纠删码池在一定程度上降低了存储空间的需求，因为它相对于复制来说更加节省空间。但它通常需要更多的计算资源来编码和解码数据块。
Cache Tier Pools（缓存层池）：
- 缓存层池用于优化数据的访问性能。它通常包括两个池：一个是原始数据池，另一个是用于缓存的池。
- 原始数据池存储实际的数据，而缓存池存储数据的缓存副本。热门或频繁访问的数据会被缓存到缓存池中，以提高读取性能。

这些不同类型的Pool可以根据具体的需求来配置，以满足不同应用场景的要求。例如，如果对数据的可用性要求很高，可以选择使用复制池。如果对存储空间的有效利用非常重要，可以考虑使用纠删码池。而如果需要提高数据访问性能，可以使用缓存层池。

既然erasure-coded pool（纠删码池）那么好，都用它就行了，为啥还需要replicated pool（副本池）？

虽然erasure-coded pool在存储效率方面具有优势，但它也存在一些限制和适用场景的考虑。以下是为什么还需要使用replicated pool的原因：

写入性能：纠删码池需要进行编码和解码操作，这会带来额外的计算开销。相比之下，副本池只需要简单地将数据对象复制到多个节点上，写入性能更高。
数据访问延迟：由于纠删码池需要对数据进行解码操作，读取请求的处理时间会比副本池长。如果应用程序对低延迟有较高要求，则副本池可以提供更快的数据访问速度。
存储容量：纠删码池确实在存储效率方面比副本池更高，因为它可以使用较少的冗余数据。然而，纠删码保护也需要存储额外的校验块，这会增加一定的存储开销。如果存储容量不是主要关注点，副本池可以提供更简单、更直观的数据备份。
维护复杂性：纠删码池的设置和维护相对较为复杂。它需要配置纠删码规则、确定数据块和校验块的数量等。相比之下，副本池的配置和管理更加简单。

05 简述Ceph Pool、PG、ODDs的关系？

Pool又被划分为多个逻辑区块组（PG），每个PG是一个固定大小的分组，包含了一定数量的对象副本。PG也需要通过CRUSH算法映射到OSD中去存储。以二副本为例，每个PG都会映射到两个OSD上，比如[osd.1,osd.2]，那么osd.1是存放该PG的主副本，osd.2是存放该PG的从副本，保证了数据的冗余。

OSD是Ceph存储集群中的实际存储设备，它们负责存储和管理数据。每个OSD代表一个物理存储节点上的存储设备，例如硬盘或固态硬盘。

06 简述Ceph节点的角色？

Ceph中有几种不同角色的节点，每个节点都有自己的任务和责任，就像团队中的不同成员。以下是通俗易懂的解释：

Monitor（监控节点）：监控节点就像团队的领导者，它们负责监督整个Ceph存储集群的状态和健康状况。它们记录存储集群中的信息，协调各种操作，确保系统正常运行。如果有问题，监控节点会采取措施来修复或通知其他节点采取行动。
OSD（对象存储守护进程节点）
MDSs：Ceph元数据服务器（MDS）为Ceph文件系统存储元数据（也就是说，Ceph块设备和Ceph 对象存储不使用MDS）
**RADOS Gateway（RADOS网关节点）**它们提供了对象存储接口，允许外部应用程序通过标准的对象存储协议（如S3、Swift）来访问Ceph中的对象数据