NLP领域————T5算法

一、T5 算法核心概念

T5（Text-To-Text Transfer Transformer）的核心是把所有 NLP 任务统一成 "文本输入→文本输出" 的生成任务，比如：

文本分类（输入：句子，输出：类别）
机器翻译（输入：英文句子，输出：中文句子）
问答（输入：问题 + 上下文，输出：答案）
摘要（输入：长文本，输出：短摘要）

核心特点：

统一框架：所有任务用同一套模型、同一套训练 / 推理流程，无需为不同任务改模型结构。
预训练 + 微调：预训练用 "Span Corruption"（随机遮盖文本片段，让模型还原），微调时给任务加前缀（如 "translate English to German: "）区分任务。
全 Transformer 架构：纯 Encoder-Decoder 结构（原始 Transformer 架构），无额外定制模块。

二、T5算法的核心代码

使用 Hugging Face 的transformers库实现 T5 的文本摘要，最典型的文本→文本任务。

python 复制代码

# 第一步：安装依赖（如果未安装）
# !pip install transformers torch datasets

# 第二步：导入核心库
from transformers import AutoTokenizer, AutoModelForConditionalGeneration
import torch

# 第三步：加载中文T5模型和分词器（使用谷歌官方的C-T5小版本）
# ct5-small：轻量级中文T5，适配中文分词和语义
model_name = "google/ct5-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForConditionalGeneration.from_pretrained(model_name)

# 第四步：定义中文输入文本和任务前缀（T5中文任务前缀用中文）
# 任务前缀改为"总结："，明确告诉模型做中文文本摘要
input_text = "总结：Transformer是一种基于自注意力机制的模型架构，彻底改变了自然语言处理领域。T5（Text-To-Text Transfer Transformer）将所有自然语言处理任务统一成文本到文本的格式，使其具有极高的通用性。"

# 第五步：中文文本编码（适配中文分词规则）
inputs = tokenizer(
    input_text,
    return_tensors="pt",  # 返回PyTorch张量
    padding=True,         # 自动填充到统一长度
    truncation=True,      # 截断过长文本
    max_length=512,       # 模型最大输入长度
    add_special_tokens=True  # 自动添加中文T5的特殊标记
)

# 第六步：生成中文摘要（优化生成参数适配中文）
outputs = model.generate(
    **inputs,
    max_length=80,        # 中文摘要长度稍长，设为80
    num_beams=6,          # 束搜索参数调高，提升中文流畅度
    early_stopping=True,  # 生成到结束标记停止
    no_repeat_ngram_size=2  # 避免中文重复（如"的的""是是"）
)

# 第七步：解码输出（转回中文文本）
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)

# 第八步：打印中文结果
print("原始中文文本：")
print(input_text.replace("总结：", ""))
print("\n生成的中文摘要：")
print(summary)

运行结果

原始文本：人工智能是一门研究如何使机器模拟人类智能的技术，T5模型则是其中在自然语言处理领域表现优异的生成式模型。

生成摘要：人工智能是研究机器模拟人类智能的技术，T5模型是自然语言处理领域优异的生成式模型。

三、结语

T5 核心：所有 NLP 任务统一为 "文本输入 + 任务前缀→文本输出"，基于纯 Encoder-Decoder 的 Transformer 架构。
关键公式：核心是自注意力和多头注意力，损失函数为交叉熵。
代码核心：用 Hugging Face 加载预训练 T5 模型，加任务前缀编码文本，调用generate生成输出，最后解码得到结果。
关键注意点：T5 必须加任务前缀，否则模型无法识别任务类型；生成时num_beams是影响生成质量的关键参数。