家庭主机不能跑 Mixtral-8x22b-v0.1?我就跑给你看

谁说家用机不能跑 Mixtral-8x22b-v0.1的,我就偏不信。Mistral 公司又发布了比8x7B更强的MoE模型------Mixtral-8x22b-v0.1。于是我就想试试家庭机能不能跑。

昨天也挺艰辛的。从下午18点开始,HF下载就卡的一批,我还以为CDN网络被墙了。后来想想,估计是友军都在下载model。还是Musk英明神武,先投了Bittorrent文件,再丢Huggingface。动不动100B参的LLM确实占带宽。建议开源100B以上的放个Bittorrent文件,或者大家优先B2B下载。

硬件

RTX 4090

i9 13代

RAM 128G

Arch OS

日志

首先,原生的版本我们肯定pass掉的,于是看到 mistral-community/Mixtral-8x22B-v0.1-4bit。

下载完后,根据代码运行。结果报了vram不足

这个时候查看Model size:72.7B params

参考

大模型参数量和占的显存怎么换算?

只进行推理如果只是进行推理的话,还是比较容易计算的。目前模型的参数绝大多数都是float32类型, 占用4个字节。所以一个粗略的计算方法就是,每10亿个参数,占用4G显存(实际应该是10^9*4/1024/1024/1024=3.725G,为了方便可以记为4G)。比如LLaMA的参数量为7000559616,那么全精度加载这个模型参数需要的显存为:7000559616 * 4 /1024/1024/1024 = 26.08G

于是试试CPU的模式,结果查了github说bitsandbytes必须使用CUDA。WTF!!!

想想有没有CPU模拟方案,一番查找后发现 github.com/intel/intel...

一顿突突部署,结果卡在exit方法错误。难怪隔壁55K,I家项目1.9K。

我再看了看还有 mistral-community/Mixtral-8x22B-v0.1-AWQ。 "杰哥,我超勇的哦" 我又下载后,运行发现 autoawq也需要cuda模型而且 Requires ~260GB VRAM in fp16, 73GB in int4 怎么可以这样对待玩家显卡 4090?

难道不知道我会cpp吗?好歹我之前研究过 llamafile 的。感谢 MaziyarPanahi/Mixtral-8x22B-v0.1-GGUF 项目把它量化成Guff。 立刻clone llama.cpp项目,make编译,main运行试试。这里我胆子大,直接选择Mixtral-8x22B-v0.1.Q5_K_M。

腾了160G disk,终于跑起来了。

嗯,真香~ 不得不说,Mixtral调教的还不错, 速度能在1 token/s

相关推荐
canonical_entropy3 小时前
Harness Engineering 之外:从非线性动力系统控制理解吸引子引导工程
架构·aigc·ai编程
BenedictHook5 小时前
潮际好麦在线使用:AI电商营销革命,10分钟生成全套商品素材
aigc·ai电商·电商工具·潮际好麦·商品图生成
ServBay5 小时前
月之暗面 Kimi Code 0.4.0 发布,终端 AI 编码助手全面采用 TypeScript,实现毫秒级启动
后端·aigc·ai编程
1点东西6 小时前
Codex + 智谱 GLM 完整跑通教程 (全网唯一测试通过教程)
aigc·openai·ai编程
风落无尘7 小时前
第十章《多模态与具身》 完整学习资料
人工智能·语言模型·aigc
imbackneverdie7 小时前
深耕医学科研智能化十年,MedPeer打造新一代AI生物医学科研操作系统
大数据·人工智能·ai·信息可视化·数据分析·aigc·科研
千桐科技7 小时前
qKnow 智能体构建平台开源版 2.1.1 正式发布!优化非结构化抽取、知识库召回,全面升级系统稳定性与交互体验
大模型·llm·工作流·qknow·智能体构建平台
阿宝哥7 小时前
国产开源 TTS 杀疯了:2B 参数、支持 30 种语言,语音克隆和声音设计全都有!
开源·aigc
还有多久拿退休金8 小时前
LLM应用开发二:让AI学会"翻书"——RAG检索增强从踩坑到跑通
前端·llm
摄影图9 小时前
[图片素材]国产芯片半导体 满足科技创作多场景需求
人工智能·科技·aigc·贴图·插画