JuiceFS 2025:迈入千亿文件规模,开源第五年持续高速增长

又到了给大家汇报全年社区工作的时候。2025 年, JuiceFS 企业版发布的第九年,社区版的第五年。这一年,我们专注一如既往,打造一款高效易用的文件系统。

各项使用指标延续了上一年的增长势头,社区版数据量增长 89%,超 1.3 EB;营收连续第三年 100% 增长,是我们持续投入社区的坚实保障。

2025 年,JuiceFS 社区版继续聚焦通用性,尤其在支持各类 AI 场景的需求。发布了 Python SDK、增强 Windows 客户端可用性,并加强了对云原生生态的支持;此外,元数据引擎 SQL 和 TiKV 也进行了针对性优化。今年,团队与社区成员一道推动了 JuiceFS 的持续迭代,共有 60 位贡献者参与,新增了 305 个 Issue,合并了 601 个 PR。

在企业版的开发过程中,团队今年面临的最大挑战来自于超大规模数据的管理 。随着自动驾驶等 AI 技术逐渐融入日常生活,数据规模的增长是空前的,在千亿文件级别下,元数据管理、数据一致性等方面的管理复杂度指数级增加。为应对这些难题,企业版在元数据分区、网络性能等核心特性上进行了全面升级。上半年发布的企业版 5.2 已支持单卷千亿规模,即将发布的 5.3 版本更将支持 5,000 亿规模,让用户不必再为数据规模发愁,JuiceFS 的性能和稳定性也都能够稳妥保障。

01 社区版:支持 Python SDK、 Windows 客户端可用性大幅提升

JuiceFS 自开源以来已在企业生产环境中得到了长时间的验证,核心功能逐步趋于稳定。全年发布了 9 个版本,其中 1.3 版本是继 2021 年开源以来的第四个重要版本,并作为长期支持版本(LTS)。该版本的主要优化包括:

  • 支持 Python SDK ,提升了 AI 和数据科学场景下的灵活性和性能;
  • Windows 客户端的优化,增强了工具支持和系统服务挂载能力;
  • 备份机制优化,1 亿文件备份分钟级完成;
  • 集成 Apache Ranger,JuiceFS 支持大数据场景中的细粒度的权限管理;
  • 元数据引擎方面,SQL 和 TiKV 的性能提升,在超大规模场景下表现更加高效。

下半年,团队开始积极筹备 1.4 ,计划新增多个特性,包括用户和用户组 Quota 支持、Redis 客户端缓存支持、LRU 缓存支持、SMB/CIFS 支持、Hadoop Kerberos 支持、S3 Gateway 优化、Sync 工具断点续传,数据商业算法加密支持,预读策略优化、批量删除优化和周边工具优化等 ,以进一步提升系统的性能和稳定性。

JuiceFS CSI Driver 在过去一年发布了 18 个版本,持续优化 JuiceFS 在 Kubernetes 等环境中的存储效率和稳定性。新增功能包括卷路径健康状态检测、同一文件系统共享 Mount Pod 功能、支持 Kubernetes 原生 Sidecar,以及 Dashboard 的 CacheGroup 管理。此外,还进行了性能和可靠性优化,不仅提升了稳定性,同时改进了多 Pod 配置和容器化应用的兼容性。

JuiceFS Operator,新增了定时缓存预热 功能,提升业务访问数据的性能;支持按副本部署的 CacheGroup,实现了缓存高可用性;并引入 Sync 功能,在 Kubernetes 环境中高效同步数据,确保一致性。

02 企业版:单卷千亿规模文件,强劲性能与稳定性保障

2025 年上半年,JuiceFS 企业版 5.2 版本发布,单个文件系统突破千亿文件的规模,并显著提升了超大规模集群的稳定性和分布式缓存的网络性能。为了实现这一目标,团队投入了大量时间和精力进行优化,特别是在处理超大数据集和高并发访问时的性能提升。该版本已在多个企业的生产环境中得到验证,单卷千亿文件规模下保持 1 毫秒元数据时延水平 。同时,分布式缓存网络性能优化,TCP 网络下大幅减少 CPU 开销,同时提升网络带宽利用率。在 100 台 GCP 100Gbps 节点的环境下,聚合读带宽达到 1.2 TB/s,接近满负荷利用 TCP/IP 网络带宽

此外, Python SDK 实现了 fsspec 兼容、按需导入对象存储文件,可以更方便的访问对象存储存量数据、解决特殊场景中的读放大问题以及提升全局 QoS 能力,进一步增强了系统的灵活性和性能。

多分区架构是 JuiceFS 应对千亿文件规模的关键技术之一,保证了系统的高扩展性和高并发处理能力。下半年我们的核心工作集中在 5.3 版本,对多分区架构进行了全面优化,分区限制从 256 个提升至 1,024 个,可实现单卷超过 5,000 亿文件的存储和访问需求

这背后是一系列复杂的工作,包括系统化整理跨分区链接实现,并实现后台自检机制,提升集群的可靠性与稳定性;开发热点监测与自动迁移工具,高效处理热点问题;优化分布式缓存管理,减少缓存冲突并提高并发性能;此外,为了进一步优化分布式网络的性能,在这个版本中首次引入了 RDMA 技术,目前处于实验阶段,测试结果显示其在稳定性和 CPU 使用率方面优于 TCP 协议。5.3 版本将于 1 月发布,更多细节,欢迎关注。

03 社区发展,第 5 年高速成长,数据总量超 1.3EB

目前,JuiceFS GitHub star 超 12.6K;JuiceFS 下载量突破了 5 万次,CSI Driver 的下载量超过了 500 万次;中文社区已经有 10 个微信群组,Slack 英文社区也达千人。

社区版开源的第 5 年,也是快速增长的第 5 个年头。用户上报数据显示,JuiceFS 的各项关键数据延续了增长趋势:

  • 文件系统 590K+,增长 82%
  • 活跃客户端 150K+,增长 46%
  • 文件数量 4000 亿+,增长 43%
  • 数据总量 1.3EiB+,增长 89%

今年,我们在多个行业大会分享实践,KCD 、开源年会、CommunityOverCode Asia 等,感谢这些大会主办方对 JuiceFS 的认可;在海外行业会议也展露头脚,参与了 KubeCon+CloudNative Con North America、Opensource Summit Japan、SNIA Developer Conference 等。

为了更好地为用户提供支持,我们定期举办 Office Hours,介绍新功能、解答疑问;同时,举办了 11 场 Meetup,帮助不同行业的用户更有信心地将 JuiceFS 应用于生产环境。案例涵盖自动驾驶、生成式 AI、AI 基础平台、量化投资、生命医药等多个领域。(查看所有案例

特别感谢以下今年参与分享的用户,他们的实践经验为社区提供了宝贵的参考:

  1. 丁聪,Lepton AI,加速 AI 训推:构建多租户、低延迟云存储平台
  2. 孙玮,中国科学院计算所,基于 JuiceFS 的大模型训推平台存储演进之路
  3. 郑泽东,百图生科,基于 JuiceFS 构建生命科学大模型存储平台,成本降 90%
  4. 吴松林,携程,稳定且高性价比的大模型存储:携程 10PB 级 JuiceFS 工程实践
  5. 唐义凡,合合信息,基于 JuiceFS 构建统一存储,支撑 PB 级 AI 训练
  6. 缪昌新,阶跃星辰,如何利用 JuiceFS 打造高效经济的大模型存储平台
  7. 可加,稿定科技,多云架构下的 AI 存储挑战与 JuiceFS 实践
  8. 邓君宇,九识智能,基于 JuiceFS 的自动驾驶多云亿级文件存储
  9. 高玉堂, Ariste AI,JuiceFS + MinIO:量化投资高性能存储实践
  10. 李威宇,光影焕像,基于 JuiceFS 搭建 3D AIGC 存储平台,数据性能 2 倍提升
  11. 刘道全,始智 AI,基于 JuiceFS 打造高性能、低成本 AI 模型管理存储平台
  12. 高杨,酷睿程,自动驾驶百 PB 级云原生存储案例
  13. 曾奥涵,智谱 AI,大模型训练基础设施落地实践

亲爱的社区伙伴们,我们一起度过了充实的一年。JuiceFS 从一个开源新秀,成长为今天 AI 业务中备受信任的选择,衷心感谢每一位社区成员的参与与支持,感谢你们在群里解答问题、分享实践、贡献代码!

新的一年里,JuiceFS 将继续为你的工作带来更高效、更轻松的体验。

相关推荐
驭白.12 小时前
不止于自动化:新能源汽车智造的数字基座如何搭建?
大数据·人工智能·自动化·汽车·数字化转型·制造业
扉间79812 小时前
合并后的项目 上传分支 取哪里的东西提交
大数据·chrome·elasticsearch
企业智能研究13 小时前
什么是数据治理?数据治理对企业有什么用?
大数据·人工智能·数据分析·agent
阿里云大数据AI技术13 小时前
面向 Interleaved Thinking 的大模型 Agent 蒸馏实践
人工智能
AI Echoes13 小时前
LangChain 非分割类型的文档转换器使用技巧
人工智能·python·langchain·prompt·agent
哔哔龙13 小时前
LangChain核心组件可用工具
人工智能
全栈独立开发者13 小时前
点餐系统装上了“DeepSeek大脑”:基于 Spring AI + PgVector 的 RAG 落地指南
java·人工智能·spring
雪兽软件13 小时前
您需要了解的顶级大数据技术
大数据
2501_9418787413 小时前
在班加罗尔工程实践中构建可持续演进的机器学习平台体系与技术实现分享
人工智能·机器学习
guoketg14 小时前
BERT的技术细节和面试问题汇总
人工智能·深度学习·bert