大模型量化与剪枝

大模型量化,剪枝

量化有助于减少显存使用并加速推理

GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3

### export
export_dir: models/llama3_gptq
export_quantization_bit: 4
export_quantization_dataset: data/c4_demo.json
export_size: 2
export_device: cpu
export_legacy_format: false

QLoRA 是一种在 4-bit 量化模型基础上使用 LoRA 方法进行训练的技术。它在极大地保持了模型性能的同时大幅减少了显存占用和推理时间。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

量化7B模型,12GB显存不够用

增大至24G显存就够了

量化加载的参数更多,所以对显存的需求更大

剪枝

相关推荐
im_AMBER1 分钟前
Leetcode 63 定长子串中元音的最大数目
c++·笔记·学习·算法·leetcode
orion-orion13 分钟前
学习理论:凸代理、代理与估计误差界
机器学习·统计学习·学习理论
simon_skywalker39 分钟前
线性代数及其应用习题答案(中文版)第一章 线性代数中的线性方程组 1.4 矩阵方程Ax=b(1)
线性代数·机器学习·矩阵
لا معنى له1 小时前
残差网络论文学习笔记:Deep Residual Learning for Image Recognition全文翻译
网络·人工智能·笔记·深度学习·学习·机器学习
小白程序员成长日记1 小时前
2025.11.29 力扣每日一题
数据结构·算法·leetcode
工业机器视觉设计和实现1 小时前
lenet改vgg训练cifar10突破71分
人工智能·机器学习
在黎明的反思2 小时前
进程通信之消息队列(IPC)
算法
老鱼说AI2 小时前
算法基础教学第一步:数据结构
数据结构·python·算法
Jing_Rainbow3 小时前
【LeetCode Hot100 刷题日记(19/100)】54. 螺旋矩阵 —— 数组、矩阵、模拟、双指针、层序遍历🌀
算法·面试·程序员
地平线开发者4 小时前
征程 6 | linear 高精度输出配置方式
算法·自动驾驶