mnn大模型推理之编译MNN

1.安装**llm-export**

这里为了方便改动其中出现的问题,通过源码安装

复制代码
git clone https://github.com/wangzhaode/llm-export
cd llm-export
pip install -e .
2.模型导出

下载qwen2.5-0.5B模型:

复制代码
modelscope download Qwen/Qwen2.5-0.5B-Instruct --local_dir Qwen2.5-0.5B-Instruct

测试模型效果:

复制代码
llmexport --path Qwen2.5-0.5B-Instruct --test "你好,请介绍一下你自己"

模型导出:

复制代码
# 导出为 ONNX 格式
llmexport --path Qwen2.5-0.5B-Instruct --export onnx

# 导出为 MNN 格式(默认 4bit 量化)
llmexport --path Qwen2.5-0.5B-Instruct --export mnn

# 自定义量化参数
llmexport --path Qwen2.5-0.5B-Instruct --export mnn --quant_bit 8 --quant_block 128
3.编译mnn-llm

​ 下载代码然后编译代码

复制代码
git clone --recurse-submodules https://github.com/wangzhaode/mnn-llm.git
cd mnn-llm

# linux
./script/build.sh

# android
./script/android_build.sh

# android apk
./script/android_app_build.sh

一些编译宏:

BUILD_FOR_ANDROID: 编译到Android设备;
LLM_SUPPORT_VISION: 是否支持视觉处理能力;
DUMP_PROFILE_INFO: 每次对话后dump出性能数据到命令行中;
默认使用CPU,如果使用其他后端或能力,可以在编译MNN时添加MNN编译宏

cuda: -DMNN_CUDA=ON
opencl: -DMNN_OPENCL=ON
metal: -DMNN_METAL=ON
4.测试

​ 通过这个库运行llmexport导出的模型一直报错,暂时不知道什么问题,github评论区很多都在说

复制代码
Can't open file:./mnn_cachefile.bin
Load Cache file error.
load tokenizer
tokenizer_type = 3
load tokenizer Done
load ../../model/llm.mnn ... 3 tensor [ logits_index ] is input but not found
Load Module Done!
Clone Decode Module Done!

Q: who

A: Segmentation fault
5. 编译MNN

​ 看到MNN-llm库说已经merge到MNN了,想着是不是前者不维护了,试一下MNN,没想到反而可以

复制代码
// 下载代码
git clone https://github.com/alibaba/MNN.git
cd MNN&& mkdir build   
//编译x86  cmake
cmake .. -DLLM_SUPPORT_VISION=ON -DMNN_BUILD_OPENCV=ON -DMNN_IMGCODECS=ON -DLLM_SUPPORT_AUDIO=ON -DMNN_BUILD_AUDIO=ON -DMNN_LOW_MEMORY=true -DMNN_CPU_WEIGHT_DEQUANT_GEMM=true -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=truemake -DMNN_AVX512=ON  && make -j4
./llm_demo  ../../qwen2.5_0.5B_mnn/   //运行demo
相关推荐
生成论实验室6 分钟前
《源·觉·知·行·事·物:生成论视域下的统一认知语法》第一章 源:不可言说的生成之源
人工智能·科技·算法·生活·创业创新
jinglong.zha11 分钟前
AI萌宠短剧实战:从0孵化动物IP,用AI制作爆款短视频
人工智能·ai·音视频·网赚教程·萌宠
AI医影跨模态组学16 分钟前
如何将CT影像语义特征与肝癌术后辅助TACE获益相关的免疫抑制性肿瘤微环境建立关联,并进一步解释其与预后、PA-TACE治疗响应的机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
汤姆yu20 分钟前
OpenAI GPT-5.5 全面详解与使用
人工智能·openai
xcbrand22 分钟前
政府事业机构品牌策划公司哪家可靠
大数据·人工智能·python
逻辑君22 分钟前
认知神经科学研究报告【20260020】
人工智能·神经网络·机器学习
2zcode31 分钟前
基于低光照增强与轻量型CNN道路实时识别算法研究(UI界面+数据集+训练代码)
人工智能·算法·cnn·低光照增强·自动驾驶技术
萑澈43 分钟前
Xiaomi MiMo Orbit 百亿 Token 计划申请保姆级教程
人工智能
缝艺智研社1 小时前
誉财 YC - 23 全自动上底裤明橡筋机:裤腰加工的革新力量
人工智能·自动化缝纫机·线上模板机·无人自动化产线·线内模板机
北京软秦科技有限公司1 小时前
工厂到货验收的突破:IACheck如何提升AI报告审核效率
人工智能