enforce_eager - enforce_eager技术,学习,经验文章

西西弗Sisyphus

2 个月前

大模型运行的 enforce_eager 参数flyfishenforce_eager=True： vLLM 完全走纯 PyTorch Eager 执行。每次生成 token 都正常调用 model.forward()，没有捕获 Graph。保留了所有 kernel launch 开销。 Eager Mode（急切模式 / 即时执行模式）：代码写到哪里，PyTorch 就立刻执行到哪里。每调用一次 model(x)，就立即把所有操作（kernel）逐个发给 GPU 执行，Python → C++ → CUDA Driver 的调用链是实时的、一