Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟

企业级数据访问加速平台领导者 Alluxio 宣布上线 Oracle 云市场(Oracle Cloud Marketplace),正式成为 OCI(Oracle Cloud Infrastructure )全球合作伙伴之一。这一里程碑式的合作标志着双方将为共同客户提供更便捷的AI基础设施解决方案,通过创新的数据加速技术彻底改变人工智能与机器学习工作负载的数据访问范式。

Oracle与Alluxio签署AI能力共建合作协议

甲骨文公司副总裁中国区董事总经理吴承扬与Alluxio中国区总经理王晓丹代表双方签署

在现代数据驱动型环境中,高性能计算集群(尤其是在利用 GPU 时)面临的挑战主要来自数据访问延迟和 I/O 吞吐量不足等问题。这种效率瓶颈不仅会导致宝贵的计算资源闲置,还并显著增加企业运营成本。Alluxio 与 Oracle 此次牵手,通过构建基于分层的数据架构解决方案突破了这些瓶颈,从而提高了 GPU 利用率,也提升了云基础设施投资回报率。

在最新的基准测试中,Alluxio数据访问加速层与 OCI 高性能裸金属基础设施的强强联合被展露无遗:在 350 个加速器上实现了低于 1 毫秒的平均延迟、近线性可扩展性,以及超过 90% 的 GPU 利用率。

🔗 基准测试链接:
https://blogs.oracle.com/cloud-infrastructure/alluxio-on-oci-submillisecond-latency-for-ai

Alluxio 销售总监程亮表示:"我们非常高兴能够通过 Oracle 云市场将 Alluxio 的高性能数据加速能力带给全球的 OCI 用户。AI 时代的竞争本质上是数据效率与计算效率的竞争。Alluxio 与 OCI 的深度结合,将帮助客户彻底释放其数据潜力,让 GPU 每一秒都创造足量价值。"

"我们听到客户最迫切的需求是:如何让昂贵的 GPU 资源全力运转,而不是等待数据。"甲骨文公司中国区云工程部门总经理窦杰表示,"Alluxio 在 OCI 上的落地,正是对这一痛点的直接回应。通过将数据智能地缓存在计算侧,我们已帮助客户将训练效率提升了一倍以上。这项合作印证了我们的承诺:提供不只是基础设施,更是真正解放生产力的解决方案。"

Alluxio 高性能缓存架构

Alluxio 作为贴近计算部署的数据加速层,位于计算层与OCI 对象存储层之间,通过智能地管理跨内存与 NVMe 的数据,同时通过 POSIX 和 S3 API 向应用程序提供统一的命名空间。

Alluxio 在 OCI 支持两种部署模式

  1. 独立模式(Dedicated mode):Alluxio 运行在 DenseIO 节点集群上,每个节点都配备 NVMe硬盘和高网络带宽。该集群为外部客户端提供所有必需的文件和对象服务,从而最大限度地提高大型多 GPU 集群的吞吐量和一致性。
  2. 混合模式(Co-located mode):Alluxio 运行在 GPU 服务器上,使用闲置的 NVMe硬盘,无需新增硬件。这种模式经济高效,非常适合小型集群或单租户工作负载。由于 Alluxio 服务和运行在同一节点上的用户应用程序共享CPU 和缓存资源,其性能可能略低于独立模式。

独立模式(左)与混合模式(右)

这对你的团队意味着什么

假设一个机器学习团队正在 OCI 上训练一个大语言模型。由于昂贵的计算实例需要等待来自对象存储的数据,团队发现 GPU 利用率始终徘徊在 50% 左右。

无需更改任何一行应用程序代码或添加新硬件,仅仅通过在现有 GPU 服务器上以混合模式部署 Alluxio 软件, GPU 利用率可以立即提升到 95% 以上。这一简单的改动就能将模型训练时间缩短近一半,使机器学习团队能够更快地迭代,并提前将模型投入生产。

Alluxio 的架构为 OCI 用户带来以下核心价值:

  1. 即插即用式集成:无需将数据从一个存储迁移到另一个存储,只需挂载你的 OCI对象存储桶;无需导入或重构;无需任何代码更改,应用程序可以继续使用相同的对象路径。
  2. 高性能吞吐和低延迟:亚毫秒级数据访问和 TB/ 秒吞吐量------近乎线性扩展,最高可达可用网络带宽的 80%。
  3. 一致性无锁定: Alluxio 保留了 OCI 对象存储的原生格式,并确保缓存和后端数据的一致性;不涉及任何专有格式或供应商依赖。
  4. 灵活部署多 GPU 云:Alluxio 可无缝、自动地将正确的数据提供给每个 GPU,从而为应用程序提供低延迟和高带宽的数据访问。

将 OCI 对象存储中的数据缓存或预热到 Alluxio 后,后续读取操作将直接从本地 NVMe 或内存中提供,延迟将降低几个数量级。

基准测试结果

  1. 在 WARP 基准测试中,单节点部署实现 0.3 毫秒平均延迟;
  2. 在 MLPerf Storage 2.0 测试中,6 节点集群吞吐量达 61.6 GB/s;
  3. 同时保持 GPU 利用率稳定在 90% 以上。

以上的基准测试结果充分证明,将 Alluxio 与 OCI 的高性能裸金属基础设施相结合,是消除 AI/ML 和大数据分析中数据访问瓶颈的有效策略。通过在应用程序附近构建高性能缓存层,该解决方案能够充分发挥 OCI 计算和 GPU 资源的潜力,从而大规模地实现速度和一致性。

对于希望最大限度地提高 OCI 计算效率、加速 AI 创新和简化操作的组织而言,OCI 上的 Alluxio可帮助你消除数据孤岛、数据拷贝及配置变更,以及提供经过验证、用于生产环境的出色性能。

Alluxio-Oracle 云市场入口

Alluxio 与 OCI 的联合解决方案现已通过 Oracle 云市场正式提供,客户可直接订阅并快速部署,加速AI落地进程。

🔗 Alluxio-Oracle 云市场入口:
https://cloudmarketplace.oracle.com/marketplace/en_US/listing/198398958

🔗 了解更多,请访问:
https://www.oracle.com/cn/cloud/

相关推荐
是席木木啊2 小时前
Spring Boot 中 @Async 与 @Transactional 结合使用全解析:避坑指南
数据库·spring boot·oracle
木头左2 小时前
高频交易中的LSTM模型实时数据流输入的设计与实现
人工智能·rnn·lstm
_Li.2 小时前
机器学习-非度量方法
人工智能·机器学习·支持向量机
xiaoxiaoxiaolll2 小时前
《Advanced Photonics Research》浙大团队提出混合逆向设计方法,实现太赫兹三通道模分/波分同时解复用
人工智能
武子康2 小时前
Java-204 RabbitMQ Connection/Channel 工作流程:AMQP 发布消费、抓包帧结构与常见坑
java·分布式·消息队列·rabbitmq·ruby·java-activemq
paopao_wu2 小时前
深度学习2:理解感知机
人工智能·深度学习
郑州光合科技余经理2 小时前
海外国际版同城服务系统开发:PHP技术栈
java·大数据·开发语言·前端·人工智能·架构·php
跨境卫士苏苏2 小时前
突围新品广告泥潭:亚马逊广告底层逻辑大重构
大数据·人工智能·算法·重构·亚马逊·防关联
杭州泽沃电子科技有限公司2 小时前
在线监测:让燃气轮机在能源转型中更可靠、更高效
人工智能·发电·智能运维