bert微调下游任务-情感分析

文章目录

背景

使用bert进行微调,本篇文章的任务是情感分析

前置准备

python 复制代码
# 下载相关包
pip install datasets # 我的版本是3.2.0
pip install accelerate  # 1.2.1

步骤

python 复制代码
from transformers import BertForSequenceClassification, BertTokenizerFast,Trainer, TrainingArguments
from datasets import load_dataset
import torch
import numpy as np

# 1. 加载数据集
dataset = load_dataset('imdb')
print(dataset)
# 输出如下
'''
DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['label', 'text'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['label', 'text'],
        num_rows: 50000
    })
})
'''

# 2. 创建训练集和测试集
train_set = dataset['train']
test_set = dataset['test']

# 3. 下载并加载预训练bert-base-un-cased模型和词元分析器。
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
# 这里使用了BertTokenizerFast类创建词元分析器,而不是使用BertTokenizer。与BertTokenizer相比,BertTokenizerFast类有很多优点。
tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

'''
出现以下提示,这是正常的,因为BertForSequenceClassification模型包含一个额外的分类层,用于将输出转换为分类标签。这个额外的层被随机初始化了。

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
'''
# 4. 对训练集和测试集进行预处理,tokenizer这个函数的原理可以参考最后
def preprocess(data):    
    return tokenizer(data['text'], padding = True, truncation = True, max_length=512)
## 使用preprocess函数对训练集和测试集进行预处理。
batch_size = 512
train_set = train_set.map(preprocess, batched = True, batch_size = batch_size)
test_set = test_set.map(preprocess, batched = True, batch_size = batch_size)
## 接下来,使用set_format函数,选择数据集中需要的列及其对应的格式,如下所示。
train_set.set_format('torch', columns = ['input_ids', 'attention_mask', 'label'])
test_set.set_format('torch', columns = ['input_ids', 'attention_mask', 'label'])

# 5.训练模型
epochs = 2
warmup_steps = 10
weight_decay = 0.01
training_args = TrainingArguments(output_dir = './results',   
 num_train_epochs = epochs,    
 per_device_train_batch_size = batch_size,    
 per_device_eval_batch_size = batch_size,    
 warmup_steps = warmup_steps,    
 weight_decay = weight_decay,    
 logging_dir = './logs',)
trainer = Trainer(model = model, args = training_args, train_dataset = train_set, eval_dataset = test_set)
trainer.train()

# 6.训练结束后,可以使用evaluate函数来评估模型
trainer.evaluate()

tokenizer都做了啥

python 复制代码
# 预处理数据集我们以句子I love Paris为例,使用词元分析器对数据集进行快速预处理。首先,对例句进行标记,在句首添加[CLS]标记,在句尾添加[SEP]标记,如下所示。
tokens = [ '[CLS]', 'I', 'love', 'Paris', '[SEP]' ]
# 接下来,将标记映射到唯一的输入ID(标记ID)。假设输入ID如下所示。
input_ids = [101, 1045, 2293, 3000, 102]
# 然后,添加分段ID(标记类型ID)。假设输入中有两个句子,分段ID可以用来区分这两个句子。第1句中的所有标记被映射为0,第2句中的所有标记被映射为1。在这里,我们只有一个句子,因此所有的标记都会被映射为0,如下所示。
token_type_ids = [0, 0, 0, 0, 0]
# 现在创建注意力掩码。我们知道注意力掩码是用来区分实际标记和[PAD]标记的,它把所有实际标记映射为1,把[PAD]标记映射为0。假设标记长度为5,因为标记列表已经有5个标记,所以不必添加[PAD]标记。在本例中,注意力掩码如下所示。
attention_mask = [1, 1, 1, 1, 1]

# !!!不过,我们无须手动执行上述所有步骤,词元分析器会为我们完成这些步骤。我们只需将例句传递给词元分析器,如下所示。
tokenizer('I love Paris')

# 上面的代码将返回以下内容。可以看到,输入句已被标记,并被映射到input_ids、token_type_ids和attention_mask。
{'input_ids': [101, 1045, 2293, 3000, 102],
 'token_type_ids': [0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1]}

# 通过词元分析器,还可以输入任意数量的句子,并动态地进行补长或填充。要实现动态补长或填充,需要将padding设置为True,同时设置最大序列长度。假设输入3个句子,并将最大序列长度max_length设置为5,如下所示。
tokenizer(['I love Paris', 'birds fly', 'snow fall'], padding = True, max_length = 5)
# 上面的代码将返回以下内容。可以看到,所有的句子都被映射到input_ids、token_type_ids和attention_mask。第2句和第3句只有两个标记,加上[CLS]和[SEP]后,有4个标记。由于将padding设置为True,并将max_length设置为5,因此在第2句和第3句中添加了一个额外的[PAD]标记。这就是在第2句和第3句的注意力掩码中出现0的原因。
{
 'input_ids': [[101, 1045, 2293, 3000, 102], 
               [101, 5055, 4875, 102, 0],
               [101, 4586, 2991, 102, 0]],
 'token_type_ids': [[0, 0, 0, 0, 0], 
                    [1, 1, 1, 1, 1], 
                    [0, 0, 0, 0, 0]], 
 'attention_mask': [[1, 1, 1, 1, 1], 
                    [1, 1, 1, 1, 0], 
                    [1, 1, 1, 1, 0]]
 }

参考

BertTokenizer和BertTokenizerFast的对比

相关推荐
m0_743106462 小时前
【论文笔记】多个大规模数据集上的SOTA绝对位姿回归方法:Reloc3r
论文阅读·深度学习·计算机视觉·3d·几何学
埃菲尔铁塔_CV算法2 小时前
双线性插值算法:原理、实现、优化及在图像处理和多领域中的广泛应用与发展趋势(二)
c++·人工智能·算法·机器学习·计算机视觉
程序猿阿伟2 小时前
《AI赋能鸿蒙Next,打造极致沉浸感游戏》
人工智能·游戏·harmonyos
遇健李的幸运3 小时前
深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架
人工智能
天天讯通3 小时前
AI语音机器人大模型是什么?
人工智能·机器人
说私域3 小时前
微商关系维系与服务创新:链动2+1模式、AI智能名片与S2B2C商城小程序的应用研究
人工智能·小程序
人机与认知实验室3 小时前
人-AI协同如何重塑未来战争?
人工智能
学技术的大胜嗷3 小时前
小目标检测难点分析和解决策略
人工智能·目标检测·计算机视觉
李加号pluuuus4 小时前
【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis
论文阅读·人工智能·计算机视觉
XianxinMao4 小时前
o3模型重大突破:引领推理语言模型新纪元,展望2025年AI发展新格局
人工智能·语言模型