Alluxio正式登陆Oracle云市场,为AI工作负载提供TB级吞吐量与亚毫秒级延迟

企业级数据访问加速平台领导者 Alluxio 宣布上线 Oracle 云市场(Oracle Cloud Marketplace),正式成为 OCI(Oracle Cloud Infrastructure )全球合作伙伴之一。这一里程碑式的合作标志着双方将为共同客户提供更便捷的AI基础设施解决方案,通过创新的数据加速技术彻底改变人工智能与机器学习工作负载的数据访问范式。

Oracle与Alluxio签署AI能力共建合作协议

甲骨文公司副总裁中国区董事总经理吴承扬与Alluxio中国区总经理王晓丹代表双方签署

在现代数据驱动型环境中,高性能计算集群(尤其是在利用 GPU 时)面临的挑战主要来自数据访问延迟和 I/O 吞吐量不足等问题。这种效率瓶颈不仅会导致宝贵的计算资源闲置,还并显著增加企业运营成本。Alluxio 与 Oracle 此次牵手,通过构建基于分层的数据架构解决方案突破了这些瓶颈,从而提高了 GPU 利用率,也提升了云基础设施投资回报率。

在最新的基准测试中,Alluxio数据访问加速层与 OCI 高性能裸金属基础设施的强强联合被展露无遗:在 350 个加速器上实现了低于 1 毫秒的平均延迟、近线性可扩展性,以及超过 90% 的 GPU 利用率。

🔗 基准测试链接:
https://blogs.oracle.com/cloud-infrastructure/alluxio-on-oci-submillisecond-latency-for-ai

Alluxio 销售总监程亮表示:"我们非常高兴能够通过 Oracle 云市场将 Alluxio 的高性能数据加速能力带给全球的 OCI 用户。AI 时代的竞争本质上是数据效率与计算效率的竞争。Alluxio 与 OCI 的深度结合,将帮助客户彻底释放其数据潜力,让 GPU 每一秒都创造足量价值。"

"我们听到客户最迫切的需求是:如何让昂贵的 GPU 资源全力运转,而不是等待数据。"甲骨文公司中国区云工程部门总经理窦杰表示,"Alluxio 在 OCI 上的落地,正是对这一痛点的直接回应。通过将数据智能地缓存在计算侧,我们已帮助客户将训练效率提升了一倍以上。这项合作印证了我们的承诺:提供不只是基础设施,更是真正解放生产力的解决方案。"

Alluxio 高性能缓存架构

Alluxio 作为贴近计算部署的数据加速层,位于计算层与OCI 对象存储层之间,通过智能地管理跨内存与 NVMe 的数据,同时通过 POSIX 和 S3 API 向应用程序提供统一的命名空间。

Alluxio 在 OCI 支持两种部署模式

  1. 独立模式(Dedicated mode):Alluxio 运行在 DenseIO 节点集群上,每个节点都配备 NVMe硬盘和高网络带宽。该集群为外部客户端提供所有必需的文件和对象服务,从而最大限度地提高大型多 GPU 集群的吞吐量和一致性。
  2. 混合模式(Co-located mode):Alluxio 运行在 GPU 服务器上,使用闲置的 NVMe硬盘,无需新增硬件。这种模式经济高效,非常适合小型集群或单租户工作负载。由于 Alluxio 服务和运行在同一节点上的用户应用程序共享CPU 和缓存资源,其性能可能略低于独立模式。

独立模式(左)与混合模式(右)

这对你的团队意味着什么

假设一个机器学习团队正在 OCI 上训练一个大语言模型。由于昂贵的计算实例需要等待来自对象存储的数据,团队发现 GPU 利用率始终徘徊在 50% 左右。

无需更改任何一行应用程序代码或添加新硬件,仅仅通过在现有 GPU 服务器上以混合模式部署 Alluxio 软件, GPU 利用率可以立即提升到 95% 以上。这一简单的改动就能将模型训练时间缩短近一半,使机器学习团队能够更快地迭代,并提前将模型投入生产。

Alluxio 的架构为 OCI 用户带来以下核心价值:

  1. 即插即用式集成:无需将数据从一个存储迁移到另一个存储,只需挂载你的 OCI对象存储桶;无需导入或重构;无需任何代码更改,应用程序可以继续使用相同的对象路径。
  2. 高性能吞吐和低延迟:亚毫秒级数据访问和 TB/ 秒吞吐量------近乎线性扩展,最高可达可用网络带宽的 80%。
  3. 一致性无锁定: Alluxio 保留了 OCI 对象存储的原生格式,并确保缓存和后端数据的一致性;不涉及任何专有格式或供应商依赖。
  4. 灵活部署多 GPU 云:Alluxio 可无缝、自动地将正确的数据提供给每个 GPU,从而为应用程序提供低延迟和高带宽的数据访问。

将 OCI 对象存储中的数据缓存或预热到 Alluxio 后,后续读取操作将直接从本地 NVMe 或内存中提供,延迟将降低几个数量级。

基准测试结果

  1. 在 WARP 基准测试中,单节点部署实现 0.3 毫秒平均延迟;
  2. 在 MLPerf Storage 2.0 测试中,6 节点集群吞吐量达 61.6 GB/s;
  3. 同时保持 GPU 利用率稳定在 90% 以上。

以上的基准测试结果充分证明,将 Alluxio 与 OCI 的高性能裸金属基础设施相结合,是消除 AI/ML 和大数据分析中数据访问瓶颈的有效策略。通过在应用程序附近构建高性能缓存层,该解决方案能够充分发挥 OCI 计算和 GPU 资源的潜力,从而大规模地实现速度和一致性。

对于希望最大限度地提高 OCI 计算效率、加速 AI 创新和简化操作的组织而言,OCI 上的 Alluxio可帮助你消除数据孤岛、数据拷贝及配置变更,以及提供经过验证、用于生产环境的出色性能。

Alluxio-Oracle 云市场入口

Alluxio 与 OCI 的联合解决方案现已通过 Oracle 云市场正式提供,客户可直接订阅并快速部署,加速AI落地进程。

🔗 Alluxio-Oracle 云市场入口:
https://cloudmarketplace.oracle.com/marketplace/en_US/listing/198398958

🔗 了解更多,请访问:
https://www.oracle.com/cn/cloud/

相关推荐
NAGNIP1 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab2 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab2 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
哥不是小萝莉3 小时前
OpenClaw 架构设计全解析
ai
AngelPP6 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年6 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼6 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS6 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
warm3snow7 小时前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
天翼云开发者社区8 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤