调试和优化大型深度学习模型 - 2 使用 PyTorch Profiler 在 GPU 上分析模型的算子,并提取相关性能数据flyfishProfilerActivity.CPU 和 ProfilerActivity.CUDA 指定了需要分析 CPU 和 GPU 的活动。 record_shapes=True 允许记录每个操作的输入张量形状,这对调试和优化非常有帮助。 record_function(“model_inference”) 是一个上下文管理器,用于标记代码块的分析区域。你可以在任何代码块周围使用它来进行更细粒度的性能分析。 prof.key_averages().table(sort_by=“cuda_time_