llama.cpp 部署qwen3.5 2B 高通芯片安卓实战

本文利用llama.cpp在高通芯片安卓系统部署Qwen3.5 2B模型的全流程,全套代码由豆包辅助生成,豆包最成功的一点是可以不断修正,就错误发给豆包,一步步改进,最终完成。

1、将模型转化为gguf格式

Qwen3.5 2B模型,从阿里魔塔下载,存放在Qwen3.5-2B目录下。

复制代码
python convert_hf_to_gguf.py /home/**/work/models/Qwen3.5-2B --outfile qwen3.5-2b-f16.gguf
2、量化,生成qwen3.5-2b-q4km.gguf文件
复制代码
/home/**/work/mycharm/llama.cpp/build/bin/llama-quantize qwen3.5-2b-f16.gguf qwen3.5-2b-q4km.gguf q4_k_m

构建目录进行交叉编译

注意要下载NDK并设置环境变量

安卓NDK存放目录,/opt/android-ndk-r26c

export NDK=/opt/android-ndk-r26c

复制代码
mkdir build-android
cd build-android
cmake .. \
  -DCMAKE_TOOLCHAIN_FILE=${NDK}/build/cmake/android.toolchain.cmake \
  -DANDROID_ABI="arm64-v8a" \
  -DANDROID_PLATFORM=24 \
  -DANDROID_USE_LEGACY_TOOLCHAIN=OFF \
  -DLLAMA_NATIVE=OFF \
  -DLLAMA_BUILD_SERVER=OFF \
  -DLLAMA_BUILD_EXAMPLES=ON \
  -DLLAMA_BUILD_TESTS=OFF \
  -DLLAMA_OPENMP=OFF \
  -DCMAKE_BUILD_TYPE=Release

最后输出以下内容表示成功

-- Build files have been written to: /home/**/work/mygit/llama.cpp/build-android

然后执行

复制代码
make -j$(nproc)

生成的内容在bin目录下

复制代码
adb push bin/* /data/local/tmp/qwen35/bin
3、推送文件到安卓车机

推送bin目录下文件到车机

另外需要把libomp.so这个库也推送车机bin目录

复制代码
adb push /opt/android-ndk-r26c/toolchains/llvm/prebuilt/linux-x86_64/lib/clang/17/lib/linux/aarch64/libomp.so /data/local/tmp/qwen35/bin

推送模型到车机目录

复制代码
adb push qwen3.5-2b-q4km.gguf /data/local/tmp/qwen35/models

进入车机

复制代码
adb shell
cd /data/local/tmp/qwen35/
export LD_LIBRARY_PATH=/data/local/tmp/qwen35/bin:$LD_LIBRARY_PATH
/data/local/tmp/qwen35/bin

模型文件目录

4、模型启动

执行以下命令启动模型

复制代码
./llama-simple-chat -m /data/local/tmp/qwen35/models/qwen3.5-2b-q4km.gguf
相关推荐
做个文艺程序员1 天前
2026 年开源大模型选型指南:Qwen3.5 / DeepSeek V3.2 / Llama 4 横向对比
人工智能·开源·llama
汀江游非侠1 天前
编译llama.cpp
llama
AI大模型..2 天前
数据洞察加速器:LLM Copilot 如何让 SQL 查询效率提升 50% 以上?
人工智能·langchain·llm·agent·llama
l1t2 天前
用llama试用gemma-4-E2B模型量化版本
人工智能·llama·gemma
Flying pigs~~2 天前
主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)
gpt·chatgpt·llm·llama·moe·deepseek·混合专家模式
小超同学你好2 天前
Transformer 21. 从 LLaMA 到 Qwen:Rotary Position Embedding(RoPE)与 YaRN 一文读懂
语言模型·架构·transformer·llama
belldeep2 天前
AI: llama.cpp 编译成功后,入门教程
python·ai·llama·llama-cpp
小驴程序源3 天前
【OpenClaw 完整安装实施教程(Windows + Ollama 本地模型)】
gpt·langchain·aigc·embedding·ai编程·llama·gpu算力
CHPCWWHSU3 天前
深入 llama.cpp:词汇表与分词——从文本到 Token (4)
人工智能·llm·llama·cpp·cudatoolkit
最贪吃的虎4 天前
我的第一个 RAG 程序:从 0 到 1,用 PDF 搭一个最小可运行的知识库问答系统
人工智能·python·算法·机器学习·aigc·embedding·llama