导出LLaMA等LLM模型为onnx

通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。

这篇博客(大模型LLaMa及周边项目(二) - 知乎)进行了llama导出onnx的开创性的工作,但是依赖于侵入式修改transformers库,比较不方便。

这里本人实现了避免侵入式修改transformers库导出LLM为ONNX方法,代码库为:

https://github.com/luchangli03/export_llama_as_onnx/tree/main

可以在这个基础上进行简单修改从而导出其他模型,例如百川,Qwen等模型。当前已经加入了对Qwen的导出支持。

该方案优点是无需侵入式修改transformers代码,缺点是你需要提前了解各个模型的输入,相关shape和dtype。

导出的llama decoder会存在if算子,但是经过符号shape推导和设置相应的符号shape到onnx模型value_info,然后经过onnxsim可以完全去掉。也可以考虑修改llama定义代码去掉if。优化前后:

相关推荐
AI科技星13 分钟前
全域数学·第二部 几何本原部 《无穷维射影几何原本》合订典藏版【乖乖数学】
人工智能·线性代数·数学建模·矩阵·量子计算
ProgramHelpOa21 分钟前
Optiver 2026 OA 全面复盘|26NG / Intern 最新高频题型整理
人工智能·算法·机器学习
MobotStone22 分钟前
一个人的 AI 能力级别:从会问,到会用,再到会造系统
人工智能
暗夜猎手-大魔王35 分钟前
ClaudeCode提示词工程学习
人工智能
ShareCreators35 分钟前
新能源车险拐点将至,险企迎来千亿增长机遇
人工智能·汽车·blueberry
一只理智恩38 分钟前
一个会“顶嘴”、会陪聊、拥有数字人的情绪型 AI
人工智能
weixin_5118404741 分钟前
2026年5月4日 AI对存储产业链上下游影响的深度研究
人工智能·市场分析
anew___42 分钟前
深度学习基础全攻略
人工智能
2zcode43 分钟前
基于深度学习的肺部听诊音疾病智能诊断方法研究
人工智能·深度学习
流年似水~43 分钟前
Java新手5分钟接AI:Spring AI Alibaba实战
java·人工智能·spring