一、T5 算法核心概念
T5(Text-To-Text Transfer Transformer)的核心是把所有 NLP 任务统一成 "文本输入→文本输出" 的生成任务,比如:
- 文本分类(输入:句子,输出:类别)
- 机器翻译(输入:英文句子,输出:中文句子)
- 问答(输入:问题 + 上下文,输出:答案)
- 摘要(输入:长文本,输出:短摘要)
核心特点:
- 统一框架:所有任务用同一套模型、同一套训练 / 推理流程,无需为不同任务改模型结构。
- 预训练 + 微调:预训练用 "Span Corruption"(随机遮盖文本片段,让模型还原),微调时给任务加前缀(如 "translate English to German: ")区分任务。
- 全 Transformer 架构:纯 Encoder-Decoder 结构(原始 Transformer 架构),无额外定制模块。
二、T5算法的核心代码
使用 Hugging Face 的transformers库实现 T5 的文本摘要,最典型的文本→文本任务。
python
# 第一步:安装依赖(如果未安装)
# !pip install transformers torch datasets
# 第二步:导入核心库
from transformers import AutoTokenizer, AutoModelForConditionalGeneration
import torch
# 第三步:加载中文T5模型和分词器(使用谷歌官方的C-T5小版本)
# ct5-small:轻量级中文T5,适配中文分词和语义
model_name = "google/ct5-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForConditionalGeneration.from_pretrained(model_name)
# 第四步:定义中文输入文本和任务前缀(T5中文任务前缀用中文)
# 任务前缀改为"总结:",明确告诉模型做中文文本摘要
input_text = "总结:Transformer是一种基于自注意力机制的模型架构,彻底改变了自然语言处理领域。T5(Text-To-Text Transfer Transformer)将所有自然语言处理任务统一成文本到文本的格式,使其具有极高的通用性。"
# 第五步:中文文本编码(适配中文分词规则)
inputs = tokenizer(
input_text,
return_tensors="pt", # 返回PyTorch张量
padding=True, # 自动填充到统一长度
truncation=True, # 截断过长文本
max_length=512, # 模型最大输入长度
add_special_tokens=True # 自动添加中文T5的特殊标记
)
# 第六步:生成中文摘要(优化生成参数适配中文)
outputs = model.generate(
**inputs,
max_length=80, # 中文摘要长度稍长,设为80
num_beams=6, # 束搜索参数调高,提升中文流畅度
early_stopping=True, # 生成到结束标记停止
no_repeat_ngram_size=2 # 避免中文重复(如"的的""是是")
)
# 第七步:解码输出(转回中文文本)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
# 第八步:打印中文结果
print("原始中文文本:")
print(input_text.replace("总结:", ""))
print("\n生成的中文摘要:")
print(summary)
运行结果
原始文本: 人工智能是一门研究如何使机器模拟人类智能的技术,T5模型则是其中在自然语言处理领域表现优异的生成式模型。
生成摘要: 人工智能是研究机器模拟人类智能的技术,T5模型是自然语言处理领域优异的生成式模型。
三、结语
- T5 核心:所有 NLP 任务统一为 "文本输入 + 任务前缀→文本输出",基于纯 Encoder-Decoder 的 Transformer 架构。
- 关键公式:核心是自注意力和多头注意力,损失函数为交叉熵。
- 代码核心:用 Hugging Face 加载预训练 T5 模型,加任务前缀编码文本,调用
generate生成输出,最后解码得到结果。 - 关键注意点:T5 必须加任务前缀,否则模型无法识别任务类型;生成时
num_beams是影响生成质量的关键参数。