摩尔线程发布 Torch-MUSA v2.7.0

摩尔线程已正式发布其PyTorch深度学习框架的MUSA扩展库 Torch-MUSA v2.7.0 。新版本在功能、性能和硬件支持上均有突破,旨在为AI大模型训练与推理提供更强大的支持-1

下面的表格整理了此次更新的核心信息:

项目 详细内容
发布方 摩尔线程 (Moore Threads)
核心产品 Torch-MUSA v2.7.0 (PyTorch深度学习框架的MUSA扩展库)
发布节奏 一个月内连续发布了v2.5.0和v2.7.0两个版本-1
版本号同步 从v2.5.0起,与PyTorch主版本号保持同步,便于管理-1
下次更新 计划升级至v2.9.0-1

主要更新内容

v2.7.0 版本新特性
  • 动态双精度转换 :用户可通过设置环境变量,开启Float64算子向float32的动态转换,提升计算效率-1

  • 分布式检查点 :支持从多个进程并行加载和保存模型,显著加速了大型模型检查点的保存和加载过程 ,并已支持异步保存-1

功能增强与性能优化
  • 算子扩展 :新增了flash_attentiontransformer_encoder_layer、泊松分布等多种实用算子。目前,MUSA专属支持的算子总数已超过1050个 -1

  • 计算加速 :进一步集成了muSolvermuFFT等计算加速库,提升复杂计算任务的效率-1

  • 内存优化 :新增支持统一内存设备(UMM) ,有效优化内存使用效率-1。同时,继续优化了FSDP2流水线并行策略,降低训练时的内存占用-1

  • 其他改进 :默认启用TF32计算模式以提升浮点运算效率,并增强了torch.compile与AOTInductor的功能-1

v2.5.0 版本回顾

上一个重要版本v2.5.0同样带来了关键更新,包括首次集成muFFTmuSolver加速库,并在面向边缘计算的SoC设备中支持统一内存管理 ,让GPU与CPU共享内存空间,以减少内存开销和拷贝操作-1

总结

总体来看,Torch-MUSA v2.7.0通过增加大量关键算子、优化内存管理与分布式训练流程,显著增强了对AI大模型训练和推理的支持能力-1-3。这表明摩尔线程正在其MUSA生态建设上持续快速迭代。

相关推荐
闪闪发亮的小星星1 小时前
高斯光以及高斯光公式解释
笔记
cqbzcsq2 小时前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波3 小时前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.3 小时前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余4 小时前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.4 小时前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央5 小时前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器6 小时前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记
RickyWasYoung6 小时前
经典轮胎模型对比(弦模型、环模型、刷子模型、魔术公式、FTire模型、Unitire模型)
笔记