高性能对象存储解决方案:AI 时代数据洪流下的基石

引言

AIGC、辅助驾驶、具身智能等前沿应用正以前所未有的速度推动着 AI 技术的变革。这些场景催生了对于存储系统的极致需求,也暴露出传统存储架构的明显瓶颈:一方面,存储系统需要提供海量容量以支撑海量原始数据集存储,另一方面,存储性能已成为决定 AI 集群整体效率的关键路径,高吞吐和低延迟是避免昂贵算力闲置、保障训练与推理效率的核心考虑因素。

受限于跨协议访问的协议转换开销,高密度存储的低容量吞吐比等因素,传统对象存储架构在这些新兴需求面前显得力不从心,难以同时兼顾海量低成本存储和高性能访问的诉求。为突破这一困境,腾讯云推出了基于对象存储的高性能对象存储解决方案。

基于对象存储的扩展能力和低成本优势,腾讯云为 AI 提供了统一数据存储底座。在此基础上,腾讯云推出的新一代高性能存储方案通过高性能客户端、高性能缓存、高性能跨域传输加速等技术,成功在对象存储上实现了高带宽与低延迟。它不仅满足了 AI 对容量和性能的极致需求,更通过标准化的接口简化了数据管理,为构建统一、高效、易于扩展的 AI 数据平台奠定了坚实基础。

解决方案全景

腾讯云高性能对象存储解决方案是基于对象存储 COS 构建的端到端解决方案,通过高性能客户端、高性能缓存以及高性能跨域传输加速能力,为 AI 类业务提供高吞吐、低延迟的高性能访问,兼顾业务成本和性能的需求:

  1. 高性能客户端 GooseFS MountPoint:基于腾讯云自研 TCFuse 提供的高性能 POSIX 语义客户端。允许您将 COS 存储桶作为本地文件系统挂载到您的操作系统上,让计算层可以像本地文件系统一样访问 COS 存储桶。

  2. 高性能缓存 GooseFS:实现数据的统一缓存和分层透明加速。通过智能缓存分层、统一命名空间、智能数据流动等多种技术手段,透明加速多个 COS 存储桶中的数据。

  3. 高性能跨域传输加速 COS Transfer Accelerator:提供高速互联的跨域传输加速能力。支持数据在不同地域间通过腾讯云骨干专线传输,提升多地训练效率。

技术亮点讲解

高性能客户端 GooseFS MountPoint

GooseFS MountPoint 基于自研 TCFuse,通过缓存优化、智能预读、自适应 IO 以及并发优化等技术手段,性能上有大幅提升,读写速度更快:

  1. 统一挂载:GooseFS MountPoint 为计算层提供了统一挂载访问点。一方面,GooseFS MountPoint 可以利用节点内存或者磁盘实现本地缓存;另一方面,也可以基于高性能缓存 GooseFS 实现分布式缓存;同时,GooseFS MountPoint 也支持直连 COS 普通存储桶、COS 高性能存储桶等多种不同性能规格的持久层存储,业务可按需配置,实现极致性能表现。

  2. 缓存优化:GooseFS MountPoint 通过读写缓存缩短数据 IO 路径,并通过多种配置允许用户结合业务需求按需配置,提升业务性能表现:

a. 用户发起读写文件请求时,会通过内核发起 TCFuse 请求调用指令。

b. TCFuse 收到请求指令后,优先和缓存抽象层交互,遵循 "优先读写本地" 的原则。对于读请求,如果数据在缓存中,则直接返回,速度最快。对于写请求,通常先写入高速的内存缓存,再异步下刷,以提升应用响应速度。

c. 在数据读取和写入过程中,GooseFS MountPoint 通过智能预读和并发优化等技术进一步提升客户端性能表现。

  1. 智能预读:GooseFS MountPoint 引入了智能预读机制,能够根据用户的访问模式和配置参数,提前加载可能需要的数据。尤其是在大文件顺序读和小范围随机读场景中,这一特性都能带来明显的性能提升。在开启了智能预读的前提下,GooseFS MountPoint 文件客户端单流读取性能高达 1.3GB/s 以上。

  2. 自适应 IO:在预读能力的基础上,GooseFS MountPoint 支持基于平均连续 IO 的大小,动态调整预读块,减少额外读取数据的开销;在混合负载的情况下,这种优化效果更为明显,可以提升 8 倍的性能。

  3. 并发优化:在文件写入方面,GooseFS MountPoint 重新设计了上传机制,通过优化的连接池和并发控制策略,大大提高了大文件上传的效率和稳定性,单流写入带宽可以达到 1.9GB/s 以上。无论是 GB 级还是 TB 级的大文件,都能高效稳定地上传到云端存储。

除了性能提升,GooseFS MountPoint 还引入了热升级、流控、审计日志、监控等企业级功能,确保在生产环境中的稳定性和可运维性:

  1. 热升级:传统文件系统客户端,如果要升级版本,需要卸载重挂,导致业务中断,在 AI 训练等长周期任务中尤为致命。GooseFS MountPoint 支持业务无感知的平滑演进,实现零停机更新,客户端版本更新无需重新挂载,对上层应用完全透明。在热升级过程中:

a. 用户只需按照带业务热升级的模式启动新进程,GooseFS MountPoint 即可向旧进程发起暂停指令,保留旧进程的 inode 和 open 信息。

b. 旧进程将其正在使用的、与内核建立的文件句柄返回给新进程后退出;新进程使用旧进程移交过来的文件句柄,重新建立与内核 FUSE 模块的连接后,依次恢复旧进程的 inode 和 open 信息。

c. 所有恢复步骤成功后,新进程正式确认热升级成功。新旧进程通过 fuse fd 和关键上下文的传递,实现了内核层文件系统连接和业务状态的平滑转移。

  1. 智能流控:为了有效控制客户端对客户端资源、云存储资源的占用,面对多租户、高并发场景,GooseFS MountPoint 内置了多维度的流控策略。

  2. 日志监控:提供多种级别的日志,方便业务追踪全链路性能表现,提升排障效率;同时,支持将客户端运行状态上报到 Prometheus 等监控服务,提升可观测性。

这几项能力共同构成了 GooseFS MountPoint 的企业级护城河:热升级确保业务连续性,支持 7×24 小时不间断服务;智能流控提供系统稳定性,防止资源过载导致的连锁故障;日志监控实现客户端的可观测性,满足业务的运维运营需求。

高性能缓存 GooseFS

  1. 智能缓存分层

GooseFS 缓存分层能力实现了自动化的热数据识别与缓存策略,将热数据动态保留在本地高速存储层,冷数据自动下沉至对象存储,方便用户灵活管理冷、热数据;既能为高性能计算业务提供极高性能和极低时延,又能够将 GooseFS 上产生的计算结果沉降到 COS,实现持久化、低成本保存。

  1. 统一命名空间

GooseFS 聚合了 GooseFS 本地高速缓存和 COS 对象存储的海量存储空间,为用户构建了统一的文件系统视图。对用户应用程序而言,无论数据实际物理位置在哪里,都通过同一个路径进行访问,实现了统一接入。

同时,GooseFS 可将文件系统与多个对象存储 COS 存储桶结合使用,即 GooseFS 映射多个存储桶,并行加速多个 COS 存储桶,通过 GooseFS 分布式的高性能设计,支持每秒百万级元数据操作。

  1. 智能数据流动

GooseFS 智能数据流动在分层缓存和统一命名空间的基础上,通过按需加载和多种触发模式管理业务数据在 GooseFS 和 COS 之间的流转。数据流动支持通过配置 COS 跨域传输加速域名,能够自动选择最优网络路径,显著降低跨地域访问延迟;在同步数据时也支持增量同步机制,仅传输变化数据块,可以极大节省带宽成本。

GooseFS 按需加载能力表现说明如下:

  1. 当主机首次从 GooseFS 上读取文件时,GooseFS 发现仅有文件的元数据,会自动读取 COS 桶对应文件,直接返回给主机;通过并行处理技术,加速数据传输性能。

  2. 后续再从 GooseFS 上读取文件时,会命中缓存,直接从 GooseFS 缓存层返回结果,无需再访问 COS,享受百微秒级的延迟和极高的吞吐。

  3. 当 GooseFS 的数据降冷后,通过沉降能力到 COS 桶,释放 GooseFS 空间。GooseFS 保留全量的元数据,通过透明的命名机制,可以融合管理多个 COS 桶海量存储空间,为用户提供一个统一命名空间,兼顾性能与成本。

GooseFS 通过周期触发和事件触发等多种触发模式将数据从 COS 同步到 GooseFS 中,实现数据在缓存层和持久层的一致性。周期触发模式可支持按小时、天、周等自定义时长,周期性地将数据从 COS 中搬迁到 GooseFS 中;事件触发模式则基于元数据发现能力触发数据流动任务,在对象存储的数据发生更新时立即更新缓存。

高性能跨域传输加速

受限于 GPU 资源的多地域分布,跨地域的数据访问需求随之而来。传统架构下需要将数据复制多份,并通过不同域名拷贝到对应园区的计算集群的本地存储中,数据存在多次拷贝动作;腾讯云基于高性能内网传输加速能力为 GPU 多地训练架构提供了高效、便捷的方案。

  1. 数据统一存储

所有数据统一存储在指定的对象存储(COS)园区 ,通过腾讯云内部骨干专线网络进行数据拉取,提供了高带宽、低延迟、高可靠性的能力,从源头上杜绝因数据多地分布所带来的副本一致性问题,极大简化了数据管理和权限控制。

  1. 访问性能优化

为了提升 AI 海量小文件跨区访问时网络传输的传输稳定性和性能,腾讯云通过拥塞算法优化、内核协议优化以及跨区共享长连接池 等深度技术优化,将网络传输潜力发挥到极致:

* 通过拥塞控制算法优化,显著提升了网络在高延迟、大带宽环境下的吞吐效率与稳定性,有效对抗网络抖动。

* 利用 TSO 等优化将数据包分段等计算任务从 CPU 转移至网卡,大幅降低了 CPU 负载,提升请求效率。

* 通过跨区共享长连接池技术,避免了每次请求都需重新建立 TCP 连接所带来的数次网络往返延迟开销。

  1. 低侵入性和高灵活性

对上层业务而言,整个复杂的加速架构被抽象为一个统一的加速域名。业务侧无需进行大规模的代码改造,通常仅需在配置文件中将原有 COS 访问域名替换为此加速域名,即可无缝接入所有优化能力,实现了业务代码与底层基础设施的解耦。

这种设计使得链路的切换、流量的调度乃至故障容灾,都可以快速通过配置变更完成,让开发者和运维团队能够聚焦于业务逻辑本身,而非复杂的网络与存储细节。

典型案例介绍

某客户是专注于乘用车 L4 级辅助驾驶解决方案的科技企业,其业务覆盖全球多个国家和地区,每年路测车辆产生超过数 PB 的原始驾驶数据。其核心的智能驾驶数据闭环业务流包括:

  1. 数据采集:路采车每日产生海量原始传感器数据;

  2. 数据预处理:对数据进行解析、抽帧、压缩、脱敏;

  3. 数据标注:对关键场景数据进行高精度标注,并从中挖掘有价值的长尾问题样本;

  4. 模型训练:使用标注后的数据,在数千张 GPU 卡上进行大规模分布式模型训练;

  5. 仿真测试:进行大规模、高并发的仿真测试,验证模型效果。

在数据闭环中,存储系统是连接各环节的血脉,客户迫切需要一种既能提供极致 I/O 性能,又能与云上对象存储无缝集成、具备智能缓存和生命周期管理能力的高性价比解决方案。

腾讯云团队在对客户的业务流进行深入剖析后,通过高性能对象存储解决方案提供端到端的数据访问加速能力。整体技术架构上,所有数据持久化在对象存储 COS 上;GooseFS 就近计算端部署,智能缓存热点数据;计算集群就近访问 GooseFS 高性能缓存。整体数据流向如下:

  1. 所有通过路采车上传的原始数据,首先持久化到对象存储 COS;

  2. 当数据清洗、训练或仿真任务需要特定数据集时,GooseFS 智能缓存能力会自动将所需数据从 COS 预取或按需缓存到本地全闪存储池中;

  3. 计算任务通过 GooseFS MountPoint 提供的 POSIX 接口直接访问缓存数据,支持极高的 Tbps 级别的吞吐和亚毫秒级的访问时延,彻底消除了 I/O 瓶颈;

  4. 清洗后的标注数据、训练得到的模型文件、仿真结果等,由计算任务写入 GooseFS,并由 GooseFS 的异步或同步策略,将这些结果数据回写至 COS 进行持久化保存。

通过高性能对象存储解决方案,客户的数据闭环流程发生质的飞跃,数据预处理时长减少 35%,GPU 利用率显著提高至 90+%,模型训练时长缩短 30%-50%;同时,整体存储成本降低超 30%;统一的 POSIX 接口简化了数据访问,热冷数据自动流动,极大提升了数据管理效率。

总结

腾讯云高性能对象存储解决方案依托对象存储(COS)服务,通过高性能客户端 GooseFS MountPoint、高性能缓存 GooseFS、COS 跨域传输加速等核心能力,为 AI 业务场景提供高吞吐、低延迟的数据访问能力,帮助企业解决了访问协议开销大、数据访问性能差、数据流动和管理难 等挑战,助力企业大幅度提升 AI 业务效率。未来,腾讯云存储还将进一步基于业务需求,推出高性能存储类型等面向 AI 的原生对象存储服务,进一步提升数据访问效率,降低企业使用门槛。

相关推荐
清静诗意1 天前
使用 Certbot 在腾讯云生成 Let’s Encrypt 通配符证书完整教程
腾讯云·ssl证书
Front_Yue1 天前
Spring Boot 实战:腾讯云 COS 高级特性——断点续传与进度监控
spring boot·腾讯云·腾讯云cos
2401_865854882 天前
腾讯云新出的Clawdbot怎么样
云计算·腾讯云
G31135422733 天前
IM即时通讯实现原理
腾讯云
咕噜企业分发小米5 天前
腾讯云IM如何与第三方实时音频服务集成?
云计算·音视频·腾讯云
咕噜企业分发小米5 天前
腾讯云IM与TRTC集成时,如何优化用户体验?
云计算·腾讯云
咕噜企业分发小米5 天前
腾讯云IM的优点
云计算·腾讯云
咕噜企业分发小米5 天前
腾讯云im实时音频
云计算·音视频·腾讯云
马猴烧酒.6 天前
JAVA后端对象存储( 图片分享平台)详解
java·开发语言·spring·腾讯云
咕噜企业分发小米8 天前
腾讯云在多云管理工具上如何实现合规性要求?
java·云计算·腾讯云