技术栈
128k上下文
吐个泡泡v
5 小时前
rtx4090
·
vllm部署
·
大模型本地部署
·
deepseek-v4
·
int4量化
·
128k上下文
【保姆级教程】RTX 4090 24G 部署 DeepSeek-V4-Flash 全攻略(INT4 量化 + 128K 上下文)
模型说明:DeepSeek-V4-Flash 官方原生支持 1M(104 万 token)上下文,本文通过参数限制为 128K 降低显存压力,无需修改模型权重。
我是有底线的