PEFT库和transformers库在NLP大模型中的使用和常用方法详解

PEFT(Parameter-Efficient Fine-Tuning)库是一个用于有效微调大型预训练语言模型的工具,尤其是在计算资源有限的情况下。它提供了一系列技术,旨在提高微调过程的效率和灵活性。以下是PEFT库的详细解读以及一些常用方法的总结:

PEFT库详解

  1. 参数高效微调的概念

    • PEFT旨在通过只微调模型的一部分参数(而不是整个模型)来减少计算和内存开销。这对于大型语言模型(如BERT、GPT等)尤其重要,因为它们的参数数量通常非常庞大。
  2. 常见方法

    • PEFT包括几种不同的策略,每种策略都有其适用场景和优缺点。以下是一些最常用的PEFT方法:

常用的PEFT方法总结

  1. LoRA(Low-Rank Adaptation)

    • 原理:通过在预训练模型的权重矩阵中添加低秩矩阵,LoRA将大模型的微调问题转化为对小矩阵的优化。
    • 优点:显著减少训练时所需的参数,降低计算复杂度。
    • 使用场景:适合在计算资源有限的情况下进行快速微调。
    python 复制代码
    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    from peft import LoRAConfig, get_peft_model
    
    # 加载预训练模型和分词器
    model_name = "distilbert-base-uncased"
    model = AutoModelForSequenceClassification.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 配置LoRA
    lora_config = LoRAConfig(
        r=8,  # 低秩适配的秩
        lora_alpha=32,
        lora_dropout=0.1
    )
    
    # 应用LoRA
    lora_model = get_peft_model(model, lora_config)
    
    # 训练代码(略)
  2. Adapter

    • 原理:在预训练模型的不同层之间插入小型的"适配器"网络,只微调适配器参数,保留主模型的权重不变。
    • 优点:适配器可以在不同任务之间共享,大幅度减少微调时的参数数量。
    • 使用场景:适用于需要频繁在不同任务之间切换的情况。
    python 复制代码
    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    from peft import AdapterConfig, get_peft_model
    
    # 加载预训练模型和分词器
    model_name = "distilbert-base-uncased"
    model = AutoModelForSequenceClassification.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 配置Adapter
    adapter_config = AdapterConfig(
        reduction_factor=2,
        non_linearity="relu"
    )
    
    # 应用Adapter
    adapter_model = get_peft_model(model, adapter_config)
    
    # 训练代码(略)
  3. Prefix Tuning

    • 原理:在输入序列前添加一个学习到的前缀,这个前缀在微调过程中进行优化,而主模型的参数保持不变。
    • 优点:可以实现快速微调,同时保留主模型的知识。
    • 使用场景:适合文本生成和对话系统等任务。
    python 复制代码
    from transformers import AutoModelForCausalLM, AutoTokenizer
    from peft import PrefixTuningConfig, get_peft_model
    
    # 加载预训练模型和分词器
    model_name = "gpt2"
    model = AutoModelForCausalLM.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 配置Prefix Tuning
    prefix_config = PrefixTuningConfig(
        prefix_length=10,  # 前缀长度
        task_type="text-generation"
    )
    
    # 应用Prefix Tuning
    prefix_model = get_peft_model(model, prefix_config)
    
    # 训练代码(略)
  4. Prompt Tuning

    • 原理:通过优化输入提示(prompt)的参数来指导模型生成所需的输出。
    • 优点:相较于传统微调方法,减少了对模型整体参数的依赖。
    • 使用场景:适用于自然语言处理中的各种任务,如文本分类和问答。
    python 复制代码
    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    from peft import PromptTuningConfig, get_peft_model
    
    # 加载预训练模型和分词器
    model_name = "distilbert-base-uncased"
    model = AutoModelForSequenceClassification.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 配置Prompt Tuning
    prompt_config = PromptTuningConfig(
        prompt_length=5,  # 提示长度
        task_type="classification"
    )
    
    # 应用Prompt Tuning
    prompt_model = get_peft_model(model, prompt_config)
    
    # 训练代码(略)
  5. BitFit

    • 原理:只对模型的偏置参数进行微调,保持权重参数不变。
    • 优点:极大地减少了微调的参数数量,同时在许多任务中表现良好。
    • 使用场景:适用于资源受限的场景。
    python 复制代码
    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    from peft import BitFitConfig, get_peft_model
    
    # 加载预训练模型和分词器
    model_name = "distilbert-base-uncased"
    model = AutoModelForSequenceClassification.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 配置BitFit
    bitfit_config = BitFitConfig()
    
    # 应用BitFit
    bitfit_model = get_peft_model(model, bitfit_config)
    
    # 训练代码(略)

transformers库概述

transformers库是由Hugging Face开发的一个开源库,专门用于处理自然语言处理(NLP)任务。它提供了预训练的模型、简单的API和丰富的功能,使得使用大型语言模型变得更加方便。以下是transformers库的详解和一些最常用的方法总结。

1. 加载模型和分词器

  • from_pretrained(model_name)
    • 用途:从Hugging Face Model Hub加载预训练模型和分词器。from_pretrained(model_name)方法用于从Hugging Face Model Hub加载预训练模型及其配置。可以通过指定模型的名称、路径或标识符来获取预训练的模型。(这里我常常自己先下载下来,不然的话huggingface社区老没办法从本地登进去)
    • 示例:model = AutoModel.from_pretrained("bert-base-uncased")

2. 分词器(Tokenizer)

  • tokenizer(text)
    • 用途:将文本转化为模型可接受的输入格式,包括分词、编码等。

    • 参数:可以设置return_tensors参数指定返回的张量格式(如"pt"表示PyTorch)。

    • 示例:inputs = tokenizer("Hello, world!", return_tensors="pt")

    • Hugging Face提供多种类型的分词器,主要包括:

      |-------------------|------|---------------|-----------------|------------------|
      | BertTokenizer | BERT | - 用于NLP任务的分词器 | - 使用WordPiece分词 | - 处理复杂句子和OOV词效果好 |

      |-------------------|-------|-------------------------|--------------------------------|-------------|
      | GPT2Tokenizer | GPT-2 | - 通过from_pretrained加载 | - 使用Byte Pair Encoding (BPE)分词 | - 适合文本生成和补全 |

      |-----------------|----|-----------------------|---------------------|---------------|
      | T5Tokenizer | T5 | - 提供tokenization和编码功能 | - 使用SentencePiece分词 | - 支持多种任务,灵活性高 |

      |----------------------|---------|----------------|------------------|----------------|
      | RobertaTokenizer | RoBERTa | - 支持填充、截断和解码功能 | - 训练数据更丰富,取消特殊标记 | - 在上下文理解方面表现优秀 |

      |-------------------|------|-----------|--------------|-----------------|
      | AutoTokenizer | 多种模型 | - 方便集成和使用 | - 自动选择适合的分词器 | - 提高开发效率,适合快速实验 |

    • BertTokenizer:用于BERT模型。

    • GPT2Tokenizer:用于GPT-2模型。

    • T5Tokenizer:用于T5模型。

    • RobertaTokenizer:用于RoBERTa模型。

    • AutoTokenizer:自动选择适当的分词器,根据给定的模型名称。

3. 推理

  • model(inputs)
    • 用途:推理(Inference)是指使用训练好的模型对新输入进行预测或生成输出的过程。在自然语言处理(NLP)和深度学习中,推理是模型应用的关键步骤,通常在模型训练完成后进行。以下是推理的基本概念和过程,(在这里我理解为,推理是对经过分词处理的输入数据进行推断,输出模型的预测结果。)目的 :推理的目的是对未知数据进行预测,例如分类、生成文本、回答问题等。输入与输出:推理通常接收原始输入(如文本、图像等),并输出模型的预测结果(如分类标签、生成的文本等)。
    • 示例:outputs = model(**inputs)

4. Pipeline

  • pipeline(task)
    • 用途:创建一个简化的任务接口,支持文本分类、问答、翻译等多种任务。
    • 示例:classifier = pipeline("sentiment-analysis")
    • 使用方法:result = classifier("I love this movie!")

5. Trainer

  • Trainer
    • 用途:用于模型的训练和评估,简化了训练过程。
    • 方法:
      • train():开始训练模型。
      • evaluate():评估模型在验证集上的表现。
      • save_model():保存微调后的模型。

6. 保存和加载模型

  • save_pretrained(directory)
    • 用途:将模型和分词器保存到指定目录。
    • 示例:model.save_pretrained("./my_model")
  • from_pretrained(directory)
    • 用途:从本地目录加载已保存的模型和分词器。
    • 示例:model = AutoModel.from_pretrained("./my_model")

7. 自定义数据集

  • Dataset
    • 用途:自定义数据集类,继承自torch.utils.data.Dataset,实现数据的加载和预处理。
    • 方法:
      • __len__():返回数据集大小。
      • __getitem__(idx):返回指定索引的数据样本。

8. 模型评估

  • evaluate()
    • 用途:在验证集上评估模型性能,返回各类指标(如损失、准确率等)。
    • 示例:metrics = trainer.evaluate(eval_dataset=eval_dataset)

9. 文本生成

  • model.generate()
    • 用途:用于生成文本,例如进行对话生成或续写。
    • 示例:generated_ids = model.generate(input_ids, max_length=50)

10. 模型的选择

  • AutoModelAutoModelForSequenceClassification
    • 用途:根据任务选择合适的模型架构。
    • 示例:model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
相关推荐
吃什么芹菜卷5 分钟前
深度学习:词嵌入embedding和Word2Vec
人工智能·算法·机器学习
chnyi6_ya26 分钟前
论文笔记:Online Class-Incremental Continual Learning with Adversarial Shapley Value
论文阅读·人工智能
中杯可乐多加冰27 分钟前
【AI驱动TDSQL-C Serverless数据库技术实战】 AI电商数据分析系统——探索Text2SQL下AI驱动代码进行实际业务
c语言·人工智能·serverless·tdsql·腾讯云数据库
hsling松子5 小时前
使用PaddleHub智能生成,献上浓情国庆福
人工智能·算法·机器学习·语言模型·paddlepaddle
正在走向自律5 小时前
机器学习框架
人工智能·机器学习
好吃番茄6 小时前
U mamba配置问题;‘KeyError: ‘file_ending‘
人工智能·机器学习
CV-King7 小时前
opencv实战项目(三十):使用傅里叶变换进行图像边缘检测
人工智能·opencv·算法·计算机视觉
禁默7 小时前
2024年计算机视觉与艺术研讨会(CVA 2024)
人工智能·计算机视觉
slomay8 小时前
关于对比学习(简单整理
经验分享·深度学习·学习·机器学习