技术栈

128k上下文

吐个泡泡v
5 小时前
rtx4090·vllm部署·大模型本地部署·deepseek-v4·int4量化·128k上下文
【保姆级教程】RTX 4090 24G 部署 DeepSeek-V4-Flash 全攻略(INT4 量化 + 128K 上下文)模型说明:DeepSeek-V4-Flash 官方原生支持 1M(104 万 token)上下文,本文通过参数限制为 128K 降低显存压力,无需修改模型权重。
我是有底线的