大模型量化与剪枝

大模型量化,剪枝

量化有助于减少显存使用并加速推理

GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3

### export
export_dir: models/llama3_gptq
export_quantization_bit: 4
export_quantization_dataset: data/c4_demo.json
export_size: 2
export_device: cpu
export_legacy_format: false

QLoRA 是一种在 4-bit 量化模型基础上使用 LoRA 方法进行训练的技术。它在极大地保持了模型性能的同时大幅减少了显存占用和推理时间。

bash 复制代码
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora

### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

量化7B模型,12GB显存不够用

增大至24G显存就够了

量化加载的参数更多,所以对显存的需求更大

剪枝

相关推荐
kngines2 小时前
【力扣(LeetCode)】数据挖掘面试题0002:当面对实时数据流时您如何设计和实现机器学习模型?
机器学习·数据挖掘·面试题·实时数据
web_Hsir2 小时前
vue3.2 前端动态分页算法
前端·算法
tongxianchao3 小时前
LaCo: Large Language Model Pruning via Layer Collapse
人工智能·语言模型·剪枝
网安INF3 小时前
深度学习中批标准化与神经网络调优
人工智能·深度学习·神经网络·机器学习
地平线开发者5 小时前
征程 6M 部署 Omnidet 感知模型
算法·自动驾驶
爱思德学术5 小时前
中国计算机学会(CCF)推荐学术会议-B(计算机体系结构/并行与分布计算/存储系统):SOCC 2025
网络协议·机器学习·云计算·边缘计算
秋说5 小时前
【PTA数据结构 | C语言版】线性表循环右移
c语言·数据结构·算法
巴伦是只猫5 小时前
【机器学习笔记 Ⅲ】1 无监督学习
笔记·学习·机器学习
浩瀚星辰20246 小时前
图论基础算法:DFS、BFS、并查集与拓扑排序的Java实现
java·算法·深度优先·图论
蓝婷儿6 小时前
Python 机器学习核心入门与实战进阶 Day 7 - 复盘 + 综合实战挑战
python·机器学习