大模型量化与剪枝

大模型量化,剪枝

量化有助于减少显存使用并加速推理

GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3

### export
export_dir: models/llama3_gptq
export_quantization_bit: 4
export_quantization_dataset: data/c4_demo.json
export_size: 2
export_device: cpu
export_legacy_format: false

QLoRA 是一种在 4-bit 量化模型基础上使用 LoRA 方法进行训练的技术。它在极大地保持了模型性能的同时大幅减少了显存占用和推理时间。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

量化7B模型,12GB显存不够用

增大至24G显存就够了

量化加载的参数更多,所以对显存的需求更大

剪枝

相关推荐
顾你&41 分钟前
机器学习之无监督学习算法大总结
学习·算法·机器学习
神龙斗士2401 小时前
Java 数组的定义与使用
java·开发语言·数据结构·算法
Y.O.U..1 小时前
力扣HOT100-跳跃游戏II
算法·leetcode
hn小菜鸡1 小时前
LeetCode 3132.找出与数组相加的整数 II
算法·leetcode·职场和发展
微笑尅乐1 小时前
数组模拟加法——力扣66.加一
算法·leetcode·职场和发展
_不会dp不改名_2 小时前
leetcode_146 LRU缓存
算法·leetcode·缓存
帅帅爱数学3 小时前
DeepMimic论文详细解析:基于示例引导的深度强化学习实现物理仿真角色技能
算法·强化学习
IT成长日记3 小时前
【LVS入门宝典】LVS调度算法轮询(RR)深度解析:从原理到实战的公平调度之道
算法·lvs·rr·轮询调度算法
NAGNIP3 小时前
一文搞懂量化、剪枝和知识蒸馏都是什么?
算法
点云SLAM4 小时前
GTSAM 中自定义因子(Custom Factor)的详解和实战示例
算法·机器人·slam·后端优化·gtsam·gtsam自定义因子·因子图