PyTorch v2.9.1 发布:重要 Bug 修复与性能优化详解

近日,PyTorch 正式发布了 v2.9.1 版本,这是一次专注于修复回归问题和隐性正确性错误的 Bug Fix Release。本次更新主要针对 PyTorch v2.9.0 中出现的一些性能回退、分布式计算问题、编译器错误等进行修复与优化。以下为详细更新内容。


一、回归问题修复

  • F.conv3d 在 bfloat16 输入下的显著内存回退问题
    在 v2.9.0 中,F.conv3d 使用 bfloat16 输入时出现严重的内存占用回退。
    本次版本提供了解决方案,如受影响建议从 PyPI 安装 nvidia-cudnn 包版本 9.15+。

二、Torch.compile 相关修复与优化

  • 修复 Inductor 在编译 Gemma 时的错误。
  • 修复 InternalTorchDynamoError 在字节码转换过程中的问题。
  • 修复 error_on_graph_break 配置下发生的隐性正确性错误,该错误会导致在非空 checkpoint 情况下出现不必要的 graph break 恢复。
  • 提升性能:
    • 使用 mark_static_address 配合 cudagraphs 时避免重复编译。
    • torch inductor 中缓存 get_free_symbol_uses 以提升性能。
  • 修复 Inductor 图分区在 vLLM 场景下的注册设计问题。
  • 修复 torch.compile 中出现的频繁警告信息。
  • 修复 tracer_output 变量未初始化导致的异常。
  • 修复 torch.bmmtorch.compile 在 v2.9.0 版本下的崩溃问题。

三、其他修复与改进

  • 修复新 TF32 控制 API 下频繁产生的警告信息。
  • 修复分布式计算中,gather 输入非 contiguous 引发的崩溃。
  • 修复对大张量进行索引时导致的无效配置参数问题。
  • 修复 CUDNN_ATTENTION 中的数值计算问题。
  • 修复在 fused_scaled_matmul_reduce_scatter 中的对称内存问题。
  • 改进 libtorch 稳定 ABI 文档。
  • 修复 PyPI 项目描述部分图片显示问题。

四、总结

代码地址:github.com/pytorch/pytorch

PyTorch v2.9.1 是一次重要的修复版本,针对 v2.9.0 的性能回退与编译器错误进行了集中处理,并在分布式、内存管理、数值计算等方面做出了优化。如果你的项目正在使用 v2.9.0,并且出现了相关问题,推荐及时升级至 v2.9.1 ,并确保相关依赖(如 nvidia-cudnn)版本满足要求,以获得最佳的性能与稳定性。

相关推荐
咚咚王者1 天前
人工智能之核心基础 机器学习 第十五章 数据预处理
人工智能·python·机器学习
EterNity_TiMe_1 天前
用 openJiuwen 构建一个历史介绍 AI Agent:从需求到可运行实操
人工智能·开源·实战测评·openjiuwen
无忧智库1 天前
智慧法院法律大模型辅助办案与文书生成系统建设方案:全面解析AI如何重塑司法生产力
人工智能
力学与人工智能1 天前
2025中国力学大会AI+分享 | 国防科技大学刘杰研究员:AI赋能PDE全流程求解
人工智能·ai赋能·国防科技大学·力学大会·pde求解
AC赳赳老秦1 天前
华为昇腾适配DeepSeek实战:FP8转BF16权重与FlashMLA加速配置详解
大数据·人工智能·机器学习·数据分析·kafka·etl工程师·deepseek
sg_knight1 天前
Claude Code 与 ChatGPT、Copilot 有什么区别?
人工智能·chatgpt·llm·copilot·claude·ai大模型·claude-code
赤狐先生1 天前
第一步--了解深度神经网络
人工智能·神经网络·dnn
Juicedata1 天前
仅两台缓存节点,如何支撑 1.45TB/s 大吞吐业务
人工智能·分布式·缓存
斯外戈的小白1 天前
【LLM】LLaMA架构(RMSNorm+ KV cache+Rotary Positional Encodings+门控FFN+MoE)
人工智能·架构·llama
发哥来了1 天前
AI图生视频技术深度剖析与实战指南
大数据·人工智能