优刻得×上科大联合研发:UPFS开启AI存储性能新阶段

在AI大模型训练、自动驾驶及EDA等高性能场景中,"GPU闲置"是企业最大的成本浪费。当存储系统无法以足够速度将数据传递给GPU时,即便算力充足,也难以持续高效运行。如何高效地"把数据送到GPU",正成为影响整体性能的关键因素。

在这一过程中,文件系统承担着连接存储与计算的核心角色。优刻得自研的并行文件系统UPFS,正是面向AI与高性能计算场景打造的数据底座,用于实现海量数据的高并发访问与快速分发,保障GPU持续获得稳定的数据供给。

围绕这一关键环节,优刻得与上海科技大学达成深度产学研合作,推进UPFS产品重要升级,引入Linux内核前沿特性FUSE URING,对数据访问路径进行重构,显著提升整体性能表现。

从"通用能力"到"性能瓶颈"

在现有体系中,FUSE(用户态文件系统)因其通用性与灵活性,被广泛应用于各类云与AI场景。但随着AI负载规模不断提升,其架构限制逐渐显现:

  • 单通道机制带来的资源竞争问题

  • 并发能力受限,难以充分利用多核资源

  • 高负载场景下延迟与吞吐表现受影响

在小文件密集访问等典型AI训练场景中,这些问题会被进一步放大,导致GPU等待数据的情况出现。

产学研协同:从问题定位到架构优化

针对FUSE性能瓶颈,优刻得联合上海科技大学开展专项研究,分阶段推进底层优化工作,双方聚焦FUSE性能瓶颈痛点,联合立项两大研究课题,目前项目均已顺利结题,落地形成实质性技术成果。

阶段一:性能剖析

对FUSE元数据I/O处理链路进行分段分析,定位影响时延与扩展性的关键路径,并交付基于bpftrace的性能分析工具,为后续优化提供数据支撑。

阶段二:性能优化

在系统分析基础上,结合业界多种优化思路(如Fuse over io_uring等),设计并实现多队列并行、批处理机制、零拷贝与用户态直通等优化方案,形成可工程化落地的整体架构。

核心升级:构建面向AI的高效数据通路

基于上述研究成果,UPFS完成对FUSE访问路径的重构,引入io_uring机制,实现关键能力:

  • 多核并行处理:为不同CPU核心建立独立处理队列,减少资源竞争,提升整体并发能力。

  • 更高效的数据传输路径:通过优化系统调用与数据传递方式,降低上下文切换开销,并支持零拷贝能力,使数据传输更加直接高效。

在实际测试中,UPFS升级版本相较传统FUSE模式取得明显提升:

  • 4K小IO性能提升3倍以上

  • 大IO吞吐提升约170%

  • 不同IO规模下均表现出更稳定的带宽能力

性能提升的直接结果是------GPU等待时间显著降低,整体算力利用率得到有效提升。

面向AI场景的存储能力升级

UPFS的此次升级,不仅是单点性能优化,更是面向AI场景的数据基础设施能力提升:

  • 全场景覆盖:无论是公有云、私有云还是混合云,架构统一

  • 算力协同优化:专为AI算力定制,支持RDMA直通,确保数据高速流入GPU

  • 信创兼容:支持主流国产芯片与操作系统,助力企业构建自主可控的AI底座

通过对存储访问路径的持续优化,UPFS正在帮助企业减少"数据等待",释放算力价值。优刻得将持续推进AI原生存储技术演进,进一步提升数据与算力的协同效率,为高性能计算场景提供更加稳定、高效的基础设施支撑。

这一技术突破的背后,不仅是优刻得在高性能存储领域的持续深耕,更体现了校企协同创新的独特价值。通过与上海科技大学的深度合作,双方实现了从理论研究到工程落地的高效转化,加速前沿技术在产业场景中的实际应用。

相关推荐
三无推导1 小时前
深入解析 ComposioHQ/awesome-codex-skills:从 Prompt 复用到 AI 工程技能化的实践路径
人工智能·性能优化·开源·prompt·github
xinwenmeiti1 小时前
聚焦工业物流智能化升级 开途科技携全矩阵产品闪耀LogiMAT China 2026
人工智能
AI科技星1 小时前
人类首张【全域数学公理体系】黑洞内部结构图—基于「0-1-∞」三元本源的全维深度解析
人工智能·算法·机器学习·数学建模·数据挖掘·量子计算
啦啦啦_99991 小时前
案例之 波士顿房价预测(线性回归之正规方程/ 梯度下降!!)
人工智能·数据挖掘·回归
人工智能AI技术1 小时前
构建工具基础:Make、CMake、Gradle 流程
人工智能
2501_945837431 小时前
OpenAI Codex:重新定义软件工程的 AI 智能体
人工智能
直奔標竿1 小时前
Java开发者AI转型第二十三课!Spring AI个人知识库实战(二):异步ETL流水线搭建与避坑指南
java·人工智能·spring boot·后端·spring
zandy10111 小时前
重新定义AI测试——衡石科技从“用例通过“到“可信质量防线“的工程实践
人工智能·科技
奇思智算1 小时前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用