vllm部署

打造个人AI写作助手：ERNIE-4.5-0.3B-PT的vLLM部署与Chainlit应用想不想拥有一个随时待命的AI写作助手？不用联网，不用付费，就在你自己的电脑上运行。今天我就带你一步步实现这个想法——用vLLM部署ERNIE-4.5-0.3B-PT模型，再用chainlit做个漂亮的聊天界面，打造一个完全属于你的本地AI写作伙伴。

【保姆级教程】RTX 4090 24G 部署 DeepSeek-V4-Flash 全攻略（INT4 量化 + 128K 上下文）模型说明：DeepSeek-V4-Flash 官方原生支持 1M（104 万 token）上下文，本文通过参数限制为 128K 降低显存压力，无需修改模型权重。

【大模型实战篇】部署GPT-OSS-120B踩得坑（vllm / ollama等推理框架）之前在《gpt-oss系列模型初探》介绍了GPT-OSS的相关内容，接下来个人尝试做了部署和测试，也遇到一些坑。

华为昇腾910B通过vllm部署InternVL3-8B教程本文主要借鉴：VLLM部署deepseek，结合自身进行整理auto-dl上选择单卡910B即可，Pytorch框架只有一个CANN版本选择，选这个即可。

我是有底线的