大模型量化与剪枝

大模型量化,剪枝

量化有助于减少显存使用并加速推理

GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3

### export
export_dir: models/llama3_gptq
export_quantization_bit: 4
export_quantization_dataset: data/c4_demo.json
export_size: 2
export_device: cpu
export_legacy_format: false

QLoRA 是一种在 4-bit 量化模型基础上使用 LoRA 方法进行训练的技术。它在极大地保持了模型性能的同时大幅减少了显存占用和推理时间。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

量化7B模型,12GB显存不够用

增大至24G显存就够了

量化加载的参数更多,所以对显存的需求更大

剪枝

相关推荐
灵感__idea1 小时前
Hello 算法:贪心的世界
前端·javascript·算法
逻辑君2 小时前
认知神经科学研究报告【20260010】
人工智能·深度学习·神经网络·机器学习
澈2072 小时前
深入浅出C++滑动窗口算法:原理、实现与实战应用详解
数据结构·c++·算法
ambition202423 小时前
从暴力搜索到理论最优:一道任务调度问题的完整算法演进历程
c语言·数据结构·c++·算法·贪心算法·深度优先
cmpxr_3 小时前
【C】原码和补码以及环形坐标取模算法
c语言·开发语言·算法
qiqsevenqiqiqiqi3 小时前
前缀和差分
算法·图论
代码旅人ing3 小时前
链表算法刷题指南
数据结构·算法·链表
Yungoal3 小时前
常见 时间复杂度计算
c++·算法
不爱吃炸鸡柳4 小时前
单链表专题(完整代码版)
数据结构·算法·链表
CylMK4 小时前
题解:AT_abc382_d [ABC382D] Keep Distance
算法