手写最基础的大模型推理并使用Profile监控GPU性能消耗情况

torch.profiler 来监控大模型推理,这样可以得到 GPU/CPU 使用情况、时间消耗、内存占用 ,比简单的 psutil 更精确。下面完整示例:


python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

# 1️⃣ 模型和 tokenizer
model_name = "distilgpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

# 输入 prompt
prompt = "Hello, I am a small language model. I can"
inputs = tokenizer(prompt, return_tensors="pt").to(device)

# 2️⃣ 使用 torch.profiler 监控推理
with torch.profiler.profile(
    schedule=torch.profiler.schedule(wait=1, warmup=1, active=2, repeat=1),
    on_trace_ready=torch.profiler.tensorboard_trace_handler("./log"),
    record_shapes=True,
    profile_memory=True,
    with_stack=True
) as prof:
    
    # 模拟多步推理,方便 profiler 捕捉
    for step in range(4):
        outputs = model.generate(
            **inputs,
            max_length=50,
            do_sample=True,
            temperature=0.7,
            top_k=50,
            top_p=0.95,
            no_repeat_ngram_size=2
        )
        prof.step()  # 标记 step,方便分析

# 3️⃣ 打印统计信息
print(prof.key_averages().table(
    sort_by="self_cpu_time_total", row_limit=20
))

# 4️⃣ TensorBoard 查看
print("Profiler traces saved to ./log, run:")
print("tensorboard --logdir=./log")

✅ 功能说明

  1. Profiler 配置
  • record_shapes=True → 记录每个操作的 tensor 形状
  • profile_memory=True → 记录显存/内存占用
  • with_stack=True → 打印调用堆栈,定位耗时操作
  1. Schedule
python 复制代码
schedule=torch.profiler.schedule(wait=1, warmup=1, active=2, repeat=1)
  • wait:等待 step 数不记录
  • warmup:热身 step,不计入统计
  • active:记录 step 数
  • repeat:重复几次 schedule
  • 用于多步生成或批量生成时统计更准确
  1. Profiler 输出
  • prof.key_averages() → CPU/GPU 每个操作耗时、显存消耗
  • 可以排序(self_cpu_time_total / cuda_time_total)找到瓶颈
  1. TensorBoard 可视化
bash 复制代码
tensorboard --logdir=./log
  • 可以看到每步操作的 GPU/CPU 时间、内存曲线
  • 直观分析模型推理性能

💡 优化建议

  • 如果模型更大(7B+),可以结合 torch.autocast("cuda") 做混合精度,节省显存并提升速度:
python 复制代码
with torch.autocast(device_type="cuda", dtype=torch.float16):
    outputs = model.generate(...)
  • 可以在 profiler 的 on_trace_ready 回调中写自定义分析,比如打印每层显存占用。

访问

https://ui.perfetto.dev/#!/viewer?local_cache_key=0-json


相关推荐
一点一木14 分钟前
深度体验TRAE SOLO移动端7天:作为独立开发者,我把工作流揣进了兜里
前端·人工智能·trae
Lee川1 小时前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
weelinking1 小时前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局1 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
研华科技Advantech2 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能
Lab_AI2 小时前
AI for Science: MaXFlow AI Agent+ 报告体验双升级,让AI智能体更高效易用!
人工智能·ai for science·ai agent·ai智能体
李坤2 小时前
让 Codex 和 Claude 互相 Review:告别手动复制
人工智能·openai·claude
南屹川3 小时前
【API设计】GraphQL实战:从REST到GraphQL的演进
人工智能
KJ_BioMed3 小时前
当计算生物学遇上生成式AI:从头设计生物分子的“新范式”初探
人工智能·从头设计·生命科学·生物医药·科研干货·科晶生物
明月醉窗台3 小时前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo