技术栈
gpt5.4
晨欣
3 小时前
llm
·
谷歌
·
cursor
·
llama.cpp
·
gguf模型
·
gpt5.4
llama.cpp 设计巧思:多模态模型拆分加载,按需使用视觉能力(配图由谷歌的Nano Banana模型倾情生成)
在 48GB L20 单卡部署 Qwen3.5-27B 时,我发现 GGUF 仓库里不止一个文件——这背后是一个非常实用的架构设计。
我是有底线的