M2 运行 llamafile

安装llamafile很简单,进入官网,按照步骤安装运行即可。

https://github.com/Mozilla-Ocho/llamafile

  1. 下载 llava-v1.5-7b-q4.llamafile
  2. 赋予运行权限chmod +x llava-v1.5-7b-q4.llamafile
  3. 运行 ./llava-v1.5-7b-q4.llamafile -ngl 9999

    速度确实是比 ollama 快,ollama 用 qwen 1.5 7B 的模型。llamafile运行的是LLaVA 1.5,也是 7B 模型。下次试试能不能把 qwen 模型接入。

运行时遇到了一个问题

the cpu feature AVX was required at build time but isn't available on this system,解决这个问题,首先用 arm64 的 shell,然后用 root 启动 llamafile。

复制代码
arch -arm64 sh
su
./llava-v1.5-7b-q4.llamafile -ngl 9999
相关推荐
小小测试开发2 天前
本地运行 AI 完全指南:从 Ollama 到 llama.cpp,2026 年不再需要云端 API
人工智能·llama
不懒不懒3 天前
【基于讯飞语音识别 + DeepSeek 大模型的课堂视频智能转写与分析系统】
大模型·llm·llama·moviepy·智慧课堂·deepseek3
松☆3 天前
torchtitan-npu:在Ascend 910上从头预训练Llama-3的完整实录
llama
嗝o゚4 天前
昇腾CANN cann-recipes-infer 仓:LLaMA 推理最佳实践,从模型到服务
人工智能·llama·cann
子榆.4 天前
CANN TensorFlow适配器:当tf.matmul跑在昇腾NPU上时在底层发生了什么
人工智能·neo4j·llama
l1t4 天前
利用llama-vulkan版本测试腾讯混元Hy-MT2多语言翻译模型
人工智能·机器学习·llama
HSunR5 天前
# 2026.5 LLaMA Factory 微调模型 使用 llama.cpp 量化 Qwen3.5 模型实操文档
llama
sxjlinux5 天前
wsl中llama.cpp源码编译
llama
Jurio.5 天前
使用.py脚本下载并加载开源大模型LLMs
python·ai·llama
解局易否结局6 天前
FlashAttention 在昇腾NPU上的实现:从内存墙到IO感知
llama