输入模型的训练数据需要变成什么样(基于bert模型)

一 问题定义

使用Hugging Face transformers 库中的的 Trainer 工具( 旨在简化和标准化 NLP(自然语言处理)模型的训练过程。它抽象了训练循环中的大量样板代码,让开发者能够以更少的代码实现强大的训练功能。)进行模型训练,其基本代码如下:

python 复制代码
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized["train"],
    eval_dataset=tokenized["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator, 
    compute_metrics=compute_metrics,
)
trainer.train()

通过参数 train_dataset 和 eval_dataset 传递模型的训练数据和验证数据,那模型所需要的训练数据 tokenized [" train "] 和 tokenized [" validation "] 到底被构建成了什么样被输入?

二 自然语言中的分词

使用的数据集 英文 sst2

python 复制代码
dataset = load_dataset("glue", "sst2")

该数据集合中的10个数据示例如下所示:

python 复制代码
{'sentence': ['hide new secretions from the parental units ',
  'contains no wit , only labored gags ',
  'that loves its characters and communicates something rather beautiful about human nature ',
  'remains utterly satisfied to remain the same throughout ',
  'on the worst revenge-of-the-nerds clichés the filmmakers could dredge up ',
  "that 's far too tragic to merit such superficial treatment ",
  'demonstrates that the director of such hollywood blockbusters as patriot games can still turn out a small , personal film with an emotional wallop . ',
  'of saucy ',
  "a depressed fifteen-year-old 's suicidal poetry ",
  "are more deeply thought through than in most ` right-thinking ' films "],
 'label': [0, 0, 1, 0, 0, 0, 1, 1, 0, 1],
 'idx': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]}

每一个训练数据包含着句子(sentence),句子对应的标签(label)以及该数据的坐标位置(idx)。

对于模型来说,其输入不能是一句话,计算器看不懂一句话,它只能看懂数字,所以我们需要将句子进行数字化之后才能输入模型。其将句子数字化的过程就是自然语言处理中的文本向量化

在向量化之前还需要考虑一个事情,我们向量化,难道是使用一个向量来代表每一句话吗?答案是否定的,会进行相应的分词操作,比如 "我喜欢你" 这句话进行分词操作的话,也许得到的分词结果就是 - 我 - 喜 - 欢 - 你 - 这四个字,然后每个分词对应一个向量,"我喜欢你" 这句话进行向量化的结果可能就是 [ [0.2,0.4,1.0], [0.5,1.0,1.0], [0.4,0.6,1.0], [0.2,0.5,1.0] ],"我"被向量化后就是[0.2,0.4,1.0]。

在transformers 库中已经有了特定的分词器,中文 英文 日语 等不同分词器,其分词器内部包括着所有某种语言所有分词片段向量化后的结果。以中文进行举例,中文中其一个分词(one token)几乎就是一个汉字,每个汉字都对应着一个向量,至于这个向量多少维根据分词器的不同则不同。

python 复制代码
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased", use_fast=True)

以上就是加载分词器,加载的是bert处理英文数据的分词器,tokenizer 就是一个分词器。将待输入模型的数据依次进行分词操作。

python 复制代码
def preprocess(batch):
    return tokenizer(batch["sentence"], truncation=True, padding=False, max_length=128)

tokenized = dataset.map(preprocess, batched=True)

示例:

  • res = tokenizer("I love you")
  • 分词后的tokens列表: ['[CLS]', 'i', 'love', 'you', '[SEP]']
  • 对应数字ID(input_ids): [101, 1045, 2293, 2017, 102]
  • 注意力掩码(attention_mask): [1, 1, 1, 1, 1]

其中的 1045 表示 "I" 这个 token 在这个 tokenizer 的词表的第1045个向量。

经过 tokenizer 向量化过后的数据再经 map 处理就可将数据处理成可直接输入Trainer的数据。其数据会被处理成一下结构

python 复制代码
Dataset({
    features: ['input_ids', 'attention_mask', 'token_type_ids', 'label'],
    num_rows: 10000  # 你的数据量
})
相关推荐
墨染天姬4 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志4 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114244 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠4 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光5 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好5 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力5 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo5 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_5 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL5 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理