【Finetune】(一)、transformers之BitFit微调

文章目录

0、参数微调简介

参数微调方法是仅对模型的一小部分的参数(这一小部分可能是模型自身的,也可能是外部引入的)进行训练,便可以为模型带来显著的性能变化,在一些场景下甚至不输于全量微调。

由于训练一小部分参数,极大程度降低了训练大模型的算力需求,不需要多机多卡,单卡就可以完成对一些大模型的训练。不仅如此,少量的训练参数,对存储的要求同样降低很多,大多数的参数微调方法只需要保存训练部分的参数,与动辄几十GB的原始大模型相比,几乎可以忽略。

1、常见的微调方法

常见的微调方法如图所示:

Lialin, Vladislav, Vijeta Deshpande, and Anna Rumshisky. "Scaling down to scale up: A guide to parameter-efficient fine-tuning." arXiv preprint arXiv:2303.15647 (2023).

2、代码实战

  • 模型------bloom-389m-zh
  • 数据集------alpaca_data_zh

2.1、导包

python 复制代码
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

2.2、加载数据集

python 复制代码
ds = Dataset.load_from_disk("./alpaca_data_zh/")

2.3、数据集处理

python 复制代码
tokenizer = AutoTokenizer.from_pretrained("../Model/bloom-389m-zh")
tokenizer
python 复制代码
def process_func(example):
    MAX_LENGTH = 256
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer("\n".join(["Human: " + example["instruction"], example["input"]]).strip() + "\n\nAssistant: ")
    response = tokenizer(example["output"] + tokenizer.eos_token)
    input_ids = instruction["input_ids"] + response["input_ids"]
    attention_mask = instruction["attention_mask"] + response["attention_mask"]
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"]
    if len(input_ids) > MAX_LENGTH:
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }
python 复制代码
tokenized_ds = ds.map(process_func, remove_columns=ds.column_names)
tokenized_ds

2.4、创建模型

python 复制代码
model = AutoModelForCausalLM.from_pretrained("../Model/bloom-389m-zh",low_cpu_mem_usage=True)

2.5、BitFit微调*

python 复制代码
#选择模型参数里面的所有bias部分
#非bias部分冻结
num_param = 0
for name,param in model.named_parameters():
    if 'bias' not in name:
        param.requires_grad = False
    else:
        num_param+=param.numel()
num_param

2.6、配置模型参数

python 复制代码
args = TrainingArguments(
    output_dir="./chatbot",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    logging_steps=10,
    num_train_epochs=1
)

2.7、创建训练器

python 复制代码
trainer = Trainer(
    args=args,
    model=model,
    train_dataset=tokenized_ds,
    data_collator=DataCollatorForSeq2Seq(tokenizer, padding=True, )
)

2.8、模型训练

python 复制代码
trainer.train()

2.9、模型推理

python 复制代码
from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)
python 复制代码
ipt = "Human: {}\n{}".format("考试有哪些技巧?", "").strip() + "\n\nAssistant: "
pipe(ipt, max_length=256, do_sample=True, temperature=0.5)
相关推荐
DisonTangor3 小时前
美团龙猫开源LongCat-Flash-Lite
人工智能·语言模型·自然语言处理·开源·aigc
AI浩8 小时前
PaddleOCR-VL-1.5:迈向用于鲁棒真实场景文档解析的多任务9亿参数视觉语言模型
人工智能·语言模型·自然语言处理
小芳矶9 小时前
【langgraph+postgres】用于生产环境的langgraph短期记忆的存取(postgreSQL替代InMemorySaver)
数据库·postgresql·语言模型
童话名剑10 小时前
自然语言处理(吴恩达深度学习笔记)
人工智能·深度学习·机器学习·自然语言处理·nlp·词嵌入
Blossom.11810 小时前
从数字大脑到物理实体:具身智能时代的大模型微调与部署实战
人工智能·python·深度学习·fpga开发·自然语言处理·矩阵·django
言無咎10 小时前
海量数据下的审计困境:基于AI系统的财务新解法
人工智能·机器学习·自然语言处理
MARS_AI_10 小时前
AI重构企业沟通:云蝠智能大模型如何重塑客户服务生态
人工智能·自然语言处理·信息与通信·agi
hans汉斯10 小时前
基于语义增强与规则引导的弱监督视频异常检测方法
人工智能·深度学习·算法·机器学习·自然语言处理·硬件架构·汉斯出版社
薛定谔的猫198210 小时前
十一、基于 BERT 的中文文本情感分类模型训练全解析
人工智能·深度学习·自然语言处理·分类·bert·大模型 训练 调优
阿杰学AI11 小时前
AI核心知识73——大语言模型之Shared Vector Space(简洁且通俗易懂版)
人工智能·机器学习·ai·语言模型·自然语言处理·aigc·共享向量空间