M2 运行 llamafile

安装llamafile很简单,进入官网,按照步骤安装运行即可。

https://github.com/Mozilla-Ocho/llamafile

  1. 下载 llava-v1.5-7b-q4.llamafile
  2. 赋予运行权限chmod +x llava-v1.5-7b-q4.llamafile
  3. 运行 ./llava-v1.5-7b-q4.llamafile -ngl 9999

    速度确实是比 ollama 快,ollama 用 qwen 1.5 7B 的模型。llamafile运行的是LLaVA 1.5,也是 7B 模型。下次试试能不能把 qwen 模型接入。

运行时遇到了一个问题

the cpu feature AVX was required at build time but isn't available on this system,解决这个问题,首先用 arm64 的 shell,然后用 root 启动 llamafile。

复制代码
arch -arm64 sh
su
./llava-v1.5-7b-q4.llamafile -ngl 9999
相关推荐
yanzhilv16 小时前
Ollama + Open WebUI
llama
喜欢吃豆2 天前
掌握本地化大语言模型部署:llama.cpp 工作流与 GGUF 转换内核全面技术指南
人工智能·语言模型·架构·大模型·llama·llama.cpp·gguf
illuspas4 天前
Ubuntu 24.04下编译支持ROCm加速的llama.cpp
linux·ubuntu·llama
缘友一世7 天前
LLama3架构原理浅浅学学
人工智能·自然语言处理·nlp·transformer·llama
我们没有完整的家8 天前
批量吞吐量实测:Llama-2-7b 昇腾 NPU 六大场景数据报告
llama
asfdsfgas8 天前
从加载到推理:Llama-2-7b 昇腾 NPU 全流程性能基准
人工智能·llama
asdfsdgss8 天前
FP16 vs INT8:Llama-2-7b 昇腾 NPU 精度性能基准报告
llama
猿代码_xiao8 天前
大模型微调完整步骤( LLama-Factory)
人工智能·深度学习·自然语言处理·chatgpt·llama·集成学习
wei_shuo10 天前
Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考
大模型·llama·昇腾
凯子坚持 c10 天前
Llama-2-7b在昇腾NPU上的六大核心场景性能基准报告
java·开发语言·llama