导出LLaMA等LLM模型为onnx

通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。

这篇博客(大模型LLaMa及周边项目(二) - 知乎)进行了llama导出onnx的开创性的工作,但是依赖于侵入式修改transformers库,比较不方便。

这里本人实现了避免侵入式修改transformers库导出LLM为ONNX方法,代码库为:

https://github.com/luchangli03/export_llama_as_onnx/tree/main

可以在这个基础上进行简单修改从而导出其他模型,例如百川,Qwen等模型。当前已经加入了对Qwen的导出支持。

该方案优点是无需侵入式修改transformers代码,缺点是你需要提前了解各个模型的输入,相关shape和dtype。

导出的llama decoder会存在if算子,但是经过符号shape推导和设置相应的符号shape到onnx模型value_info,然后经过onnxsim可以完全去掉。也可以考虑修改llama定义代码去掉if。优化前后:

相关推荐
zengjuan10057 小时前
我在给AI喂数据之前,先用松鼠备份“留了一手”——一个数据标注师的生存法则
人工智能·数据备份·数据泄露·数据标注师·松鼠备份·个人保险箱·数据保险箱
所谓伊人,在水一方3337 小时前
【机器学习精通】第2章 | 优化算法深度解析:从梯度下降到自适应优化器
人工智能·python·算法·机器学习·信息可视化
熊猫钓鱼>_>7 小时前
使用阿里云轻量应用服务器OpenClaw丝滑接入飞书打造智能群聊总结助手
人工智能·阿里云·云计算·飞书·agent·skill·openclaw
zhangfeng11337 小时前
BW/昆仑芯 国产GPU 上面微调模型 lora 异构GPU DPUPaddlePaddle/PaddleNLP 完全支持 ,unsloth似乎不支持
人工智能·编辑器
Rorsion8 小时前
机器学习基本步骤与模型优化思路
人工智能·机器学习
所谓伊人,在水一方3338 小时前
【机器学习精通】第3章 | 正则化与泛化:防止过拟合的理论与实践
开发语言·人工智能·机器学习·信息可视化·系统架构
沃达德软件8 小时前
视频监控烟火识别技术
图像处理·人工智能·目标检测·计算机视觉·目标跟踪·视觉检测·超分辨率重建
TMT星球8 小时前
火星人携双白皮书亮相AWE 2026,定义厨房空间重构新坐标
大数据·人工智能·重构
坚持学习前端日记8 小时前
Agent AI 后端接口对接与大模型适配指南
前端·人工智能·python·ios
SEO_juper8 小时前
AI时代的SEO重构:从搜索排名到AI可见度的底层逻辑变革
人工智能·ai·chatgpt·重构·seo·数字营销·2026