超算中心中集中式存储系统的架构与管理机制

🧩 集中式存储系统是怎么构成的?

✅ 存储硬件结构

  • 并不是简单地"把一堆硬盘插到一台服务器上",而是构建一个专用的存储系统 ,通常包括:
    • 多个硬盘(HDD/SSD/NVMe)组成的存储阵列(RAID、JBOD等)。
    • 存储控制器或专用存储服务器(如 Metadata Server、Object Storage Server)。
    • 高速网络接口(如 InfiniBand、100GbE)连接到计算节点。

✅ 存储系统类型

  • NAS(Network Attached Storage):通过文件协议(如 NFS、SMB)共享文件。
  • SAN(Storage Area Network):通过块协议(如 iSCSI、Fibre Channel)提供磁盘级访问。
  • 并行文件系统(如 Lustre、BeeGFS、GPFS):为高性能计算设计,支持多个节点同时读写。

🧠 操作系统 vs 文件系统:谁在管理存储?

✅ 操作系统的角色

  • 存储服务器上运行的是专用操作系统 (通常是 Linux),用于:
    • 管理硬盘、RAID阵列;
    • 运行文件系统服务;
    • 提供网络共享接口。

✅ 文件系统的角色

  • 文件系统(如 Lustre)负责:
    • 数据的组织、读写调度;
    • 元数据管理(文件名、权限、位置等);
    • 并发访问控制。

✅ 计算节点如何访问?

  • 计算节点通过网络挂载存储系统提供的路径:
    • 使用 mount 命令挂载 NFS/Lustre 文件系统;
    • 操作系统识别为一个远程文件系统,像本地磁盘一样使用。

📘 举个例子:Lustre 文件系统架构

复制代码
计算节点 ──┐
           ├──► 网络交换机 ──► Metadata Server(管理文件结构)
           ├──► 网络交换机 ──► Object Storage Server(管理数据块)
           └──► 网络交换机 ──► RAID 存储阵列(硬盘实际存储)
  • 所有计算节点通过网络访问 Lustre 文件系统;
  • 存储系统本身运行 Linux + Lustre 服务;
  • 不需要每个计算节点都插硬盘,只需连接网络即可访问共享存储。