AI 编译器系列(三)《PyTorch 中图优化》

目录

[PyTorch 基础介绍](#PyTorch 基础介绍)

动态计算图的优势与劣势

[PyTorch 中的图优化](#PyTorch 中的图优化)

[1. TorchScript](#1. TorchScript)

[2. torch.fx](#2. torch.fx)

[3. PyTorch 2.0 时代:torch.compile](#3. PyTorch 2.0 时代:torch.compile)

总结


本文主要讲解 PyTorch 核心设计理念与图优化技术体系演进。

PyTorch 基础介绍

动态计算图的优势与劣势

PyTorch 中的图优化

  • • 前端:在保持 Python 动态语义的前提下,对张量相关计算进行捕获与抽象,生成可优化的中间表示(IR)

  • • 后端:基于中间表示进行图级优化、调度与代码生成

1. TorchScript

  • • 介绍:通过torch.jit实现

  • • 两个接口:

    • torch.jit.trace

    • torch.jit.script

2. torch.fx

  • • 介绍:Python 层 IR 与图变换工具

  • • 技术亮点:

    • Symbolic Tracing:通过 Proxy 对象代替输入张量,记录所有张量运算的结构与路径。

    • fx IR :高度简洁,6 种核心指令,placeholderget_attrcall_functioncall_modulecall_methodoutput

  • Python 源到源转换

    • • IR 反向映射回 Python 源码

    • • 基于 FX Graph 修改模型结构,导出新的nn.Module代码

3. PyTorch 2.0 时代:torch.compile

  • • 介绍:统一编译接口,在尽量保留 Python 动态语义的前提下,通过图捕获与优化提升执行效率

  • • 组件与步骤:

    • TorchDynamo(前端) :解释器级 tracing 框架,在 Python 字节码层面捕获张量相关计算,生成受 guard 约束的 FX Graph

      • • 工作原理:拦截 Python 函数执行,记录张量相关 IR

      • • Guards 机制:监控变量类型与值,确保重用编译图

      • • Graph Break:子图划分,处理无法转换为静态图的部分

  • AOT Autograd:提前生成前向与反向联合计算图

    • • 工作流程:Dispatcher 机制拦截与重定义 Tensor 操作,切分正反向计算图
  • TorchInductor(后端):后端优化,生成高效可执行代码

    • • 工作流程:接受 FX Graph,进行算子融合、内存规划与调度优化,并生成高效的执行代码

    • • 示例:CUDA 设备上的 Triton 后端代码生成过程

总结

本文讲了 PyTorch 图优化技术体系的演进历程与核心特性。后续将讲解 AI 编译器中的后端优化。

相关推荐
波动几何10 小时前
Capability Pipeline OS - 通用能力管线操作系统
人工智能
F2的AI学习笔记10 小时前
下一代键盘,可能戴在手腕上
人工智能
wyg_03111310 小时前
codex features
人工智能
risc12345610 小时前
python 的字符串前缀
开发语言·python
小程故事多_8010 小时前
Agent Loop 核心突破,上下文压缩四大流派,重新定义窗口资源利用率
java·开发语言·人工智能
小小工匠10 小时前
Spring AI RAG - 09 AI 绘图 ImageModel 集成
人工智能·spring
渣渣苏10 小时前
硬核拆解 HNSW:亿级向量如何实现毫秒级召回?(上篇)
人工智能·算法·支持向量机·ai·向量数据库·hnsw·智能体
如竟没有火炬10 小时前
字符串相乘——int数组转字符串
开发语言·数据结构·python·算法·leetcode·深度优先
Pkmer10 小时前
古法编程·新解:Python 类型注解的"一箭三雕"之术
python·ai编程