[论文笔记] LLM端侧小模型篇——1、剪枝量化的latency

接 LLM大模型剪枝篇,开启LLM端侧小模型篇的极致0成本部署之路~!!!!

剪枝效果

量化效果

推理框架

MLC-LLM:编译器方式推理,跨平台可用推理框架

https://huggingface.co/mlc-ai

相关推荐
星河耀银海18 小时前
AI学习第一站:从感知到认知,AI到底是什么?
人工智能·学习·ai
小鸡吃米…18 小时前
机器学习 - 堆叠集成(Stacking)
人工智能·python·机器学习
Faker66363aaa18 小时前
YOLO11改进蚊虫目标检测模型,AttheHead注意力机制提升检测精度
人工智能·目标检测·计算机视觉
郝学胜-神的一滴18 小时前
基于30年教学沉淀的清华大学AI通识经典:《人工智能的底层逻辑》
人工智能·程序人生·机器学习·scikit-learn·sklearn
OPEN-Source18 小时前
大模型实战:把 LangChain / LlamaIndex 工作流接入监控与告警体系
人工智能·langchain·企业微信·rag
得物技术18 小时前
大模型网关:大模型时代的智能交通枢纽|得物技术
人工智能·ai
共享家952718 小时前
嵌入模型(Embedding)的全方位指南
人工智能·机器学习
ViiTor_AI18 小时前
AI 有声书旁白来了:AI 配音如何重塑有声书制作模式
人工智能
2501_9416527718 小时前
验证码识别与分类任务_gfl_x101-32x4d_fpn_ms-2x_coco模型训练与优化
人工智能·数据挖掘
砍树+c+v18 小时前
3a 感知机训练过程示例(手算拆解,代码实现)
人工智能·算法·机器学习