技术栈

enforce_eager

西西弗Sisyphus
4 小时前
langchain·prompt·transformer·vllm·enforce_eager
大模型运行的 enforce_eager 参数flyfishenforce_eager=True: vLLM 完全走纯 PyTorch Eager 执行。 每次生成 token 都正常调用 model.forward(),没有捕获 Graph。保留了所有 kernel launch 开销。 Eager Mode(急切模式 / 即时执行模式): 代码写到哪里,PyTorch 就立刻执行到哪里。 每调用一次 model(x),就立即把所有操作(kernel)逐个发给 GPU 执行,Python → C++ → CUDA Driver 的调用链是实时的、一
我是有底线的