Transformer 面试题及详细答案120道（71-80）-- 应用场景

《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，SQL，Linux... 。

前后端面试题-专栏总目录

文章目录

一、本文面试题目录
- - [71. Transformer在机器翻译任务中如何应用？与传统统计机器翻译相比有何优势？](#71. Transformer在机器翻译任务中如何应用？与传统统计机器翻译相比有何优势？)
  - - 原理说明
    - [示例代码（基于Hugging Face的翻译应用）](#示例代码（基于Hugging Face的翻译应用）)
  - [72. 请说明Transformer在文本分类任务中的应用流程（如情感分析）。](#72. 请说明Transformer在文本分类任务中的应用流程（如情感分析）。)
  - - 原理说明
    - 示例代码（情感分析）
  - [73. 命名实体识别（NER）任务中，Transformer如何捕捉实体与上下文的关系？](#73. 命名实体识别（NER）任务中，Transformer如何捕捉实体与上下文的关系？)
  - - 原理说明
    - 示例代码（NER任务）
  - [74. Transformer在问答系统（QA）中的作用是什么？如何设计输入和输出？](#74. Transformer在问答系统（QA）中的作用是什么？如何设计输入和输出？)
  - - 原理说明
    - 示例代码（抽取式QA）
  - [75. 文本摘要任务中，Transformer的Encoder和Decoder分别承担什么角色？](#75. 文本摘要任务中，Transformer的Encoder和Decoder分别承担什么角色？)
  - - 原理说明
    - 示例代码（文本摘要）
  - [76. 对话系统中，Transformer如何实现上下文理解和多轮对话连贯性？](#76. 对话系统中，Transformer如何实现上下文理解和多轮对话连贯性？)
  - - 原理说明
    - 示例代码（多轮对话）
  - [77. Transformer在语音识别任务中如何应用？与RNN-based模型相比有何不同？](#77. Transformer在语音识别任务中如何应用？与RNN-based模型相比有何不同？)
  - - 原理说明
    - 示例代码（语音识别）
  - [78. 推荐系统中，Transformer如何利用注意力机制捕捉用户兴趣和物品特征？](#78. 推荐系统中，Transformer如何利用注意力机制捕捉用户兴趣和物品特征？)
  - - 原理说明
    - 示例代码（简化的基于Transformer的推荐模型）
  - [79. 代码生成任务中，Transformer的优势体现在哪些方面？](#79. 代码生成任务中，Transformer的优势体现在哪些方面？)
  - - 原理说明
  - [80. 请举例说明Transformer在生物信息学（如蛋白质结构预测）中的应用。](#80. 请举例说明Transformer在生物信息学（如蛋白质结构预测）中的应用。)
  - - 原理说明
    - 示例代码（简化的蛋白质序列特征提取）
二、120道Transformer面试题目录列表

一、本文面试题目录

71. Transformer在机器翻译任务中如何应用？与传统统计机器翻译相比有何优势？

原理说明

Transformer是机器翻译任务的主流模型，其应用方式基于Encoder-Decoder架构：

Encoder：对源语言序列（如中文）进行编码，输出包含全局上下文信息的向量表示。
Decoder：以Encoder的输出为条件，通过自回归生成目标语言序列（如英文），同时使用掩码自注意力避免未来信息泄露。
训练目标：最大化目标序列的条件概率，使用交叉熵损失优化模型。

与传统统计机器翻译（SMT）相比，优势如下：

对比维度	Transformer	统计机器翻译（SMT）
特征提取	端到端学习语义特征，无需人工设计	依赖人工特征工程（如n-gram、词性）
长距离依赖	自注意力机制直接建模长距离语义关联	依赖短语对齐，长距离依赖捕捉能力弱
并行计算	可并行处理序列，训练和推理效率更高	依赖序列依赖的解码（如beam search），并行性差
多语言扩展	易扩展为多语言翻译（如mBART）	需为每种语言对单独设计模型
性能表现	BLEU等指标显著优于SMT，翻译更流畅	翻译质量受限于特征工程和数据稀疏性

示例代码（基于Hugging Face的翻译应用）

python 复制代码

from transformers import pipeline

# 加载预训练的翻译模型（中英翻译）
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-zh-en")

# 输入中文句子，输出英文翻译
result = translator("Transformer彻底改变了机器翻译领域。")
print(result[0]['translation_text'])
# 输出："Transformers have revolutionized the field of machine translation."

72. 请说明Transformer在文本分类任务中的应用流程（如情感分析）。

原理说明

文本分类任务（如情感分析、主题分类）中，Transformer的应用流程如下：

输入处理 ：
- 将文本序列（如"这部电影太精彩了！"）通过分词器转换为token序列。
- 加入特殊符号（如BERT中的[CLS]）作为分类标记。
特征编码 ：
- 使用Transformer的Encoder（如BERT、RoBERTa）对输入序列编码，获取每个token的上下文向量。
- 提取[CLS]位置的向量作为整个文本的聚合特征。
分类头设计 ：
- 在[CLS]向量后添加线性层+激活函数（如softmax），输出分类概率（如"正面""负面"）。
训练与推理 ：
- 用标注数据（如情感标签）训练，优化交叉熵损失。
- 推理时，根据分类概率输出预测类别。

示例代码（情感分析）

python 复制代码

from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 加载预训练模型和分词器（情感分析任务）
tokenizer = BertTokenizer.from_pretrained("textattack/bert-base-uncased-imdb")
model = BertForSequenceClassification.from_pretrained("textattack/bert-base-uncased-imdb")

# 输入文本
text = "This movie is amazing! The acting and plot are perfect."
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# 推理
with torch.no_grad():
    outputs = model(** inputs)
    logits = outputs.logits
    predicted_class = torch.argmax(logits, dim=1).item()

# 输出结果（0: 负面，1: 正面）
print("Positive" if predicted_class == 1 else "Negative")  # 输出：Positive

73. 命名实体识别（NER）任务中，Transformer如何捕捉实体与上下文的关系？

原理说明

命名实体识别（NER）旨在识别文本中的实体（如人名、地名、组织名），Transformer通过以下方式捕捉实体与上下文的关系：

输入与输出设计 ：
- 输入：文本序列（如"乔布斯创立了苹果公司"）。
- 输出：每个token的实体标签（如B-PER、I-PER、B-ORG，采用BIO标注法）。
上下文特征融合 ：
- Transformer的自注意力机制允许每个token关注上下文的相关词。例如，"苹果"在"苹果公司"中会关注"公司"以确定其为组织（ORG），而非水果。
- 双向Encoder（如BERT）同时利用左、右上下文，避免单向模型（如RNN）的信息偏差。
实体边界识别 ：
- 通过多层Transformer编码，模型学习到实体内部的依赖关系（如"史蒂夫·乔布斯"中"史蒂夫""乔布斯"的关联），准确识别实体边界。

示例代码（NER任务）

python 复制代码

from transformers import BertTokenizer, BertForTokenClassification
import torch

# 加载NER模型和分词器
tokenizer = BertTokenizer.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")
model = BertForTokenClassification.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")
label_list = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]

# 输入文本
text = "Elon Musk founded Tesla in Palo Alto."
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, is_split_into_words=False)
word_ids = inputs.word_ids(batch_index=0)  # 映射token到原始单词

# 推理
with torch.no_grad():
    outputs = model(** inputs)
    logits = outputs.logits
    predictions = torch.argmax(logits, dim=2)[0]  # 取第一个样本的预测

# 输出实体标签
for word_id, pred in zip(word_ids, predictions):
    if word_id is not None:  # 跳过特殊符号
        print(f"Word: {text.split()[word_id]}, Label: {label_list[pred]}")
# 输出：
# Word: Elon, Label: B-PER
# Word: Musk, Label: I-PER
# Word: founded, Label: O
# Word: Tesla, Label: B-ORG
# Word: in, Label: O
# Word: Palo, Label: B-LOC
# Word: Alto., Label: I-LOC

74. Transformer在问答系统（QA）中的作用是什么？如何设计输入和输出？

原理说明

在问答系统（如抽取式QA）中，Transformer的核心作用是从上下文（Context）中定位问题（Question）的答案 span，典型应用如SQuAD数据集。

输入设计：
- 将问题和上下文拼接为一个序列，格式通常为：[CLS] 问题 [SEP] 上下文 [SEP]（如BERT）。
- 通过分词器转换为token序列，并生成对应的注意力掩码。
输出设计：
- 模型输出两个向量：start_logits（每个token作为答案起始位置的概率）和end_logits（每个token作为答案结束位置的概率）。
- 选择概率最高的start和end位置（需满足start ≤ end），对应的token子序列即为答案。
Transformer的作用：
- 自注意力机制捕捉问题与上下文的语义关联（如问题中的"谁"与上下文中人名的对应）。
- 双向编码确保模型同时理解问题和上下文的全局信息，准确定位答案边界。

示例代码（抽取式QA）

python 复制代码

from transformers import BertTokenizer, BertForQuestionAnswering
import torch

# 加载QA模型和分词器
tokenizer = BertTokenizer.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad")
model = BertForQuestionAnswering.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad")

# 问题和上下文
question = "Who founded Microsoft?"
context = "Bill Gates and Paul Allen founded Microsoft in 1975."

# 输入处理
inputs = tokenizer(question, context, return_tensors="pt", padding=True, truncation=True)

# 推理
with torch.no_grad():
    outputs = model(** inputs)
    start_scores = outputs.start_logits
    end_scores = outputs.end_logits

# 定位答案位置
start_idx = torch.argmax(start_scores).item()
end_idx = torch.argmax(end_scores).item()

# 解码答案
answer_tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][start_idx:end_idx+1])
answer = tokenizer.convert_tokens_to_string(answer_tokens)
print(answer)  # 输出：Bill Gates and Paul Allen

75. 文本摘要任务中，Transformer的Encoder和Decoder分别承担什么角色？

原理说明

文本摘要任务（如新闻摘要）中，Transformer采用Encoder-Decoder架构，分工如下：

Encoder的角色：
- 对输入的长文本（如新闻全文）进行编码，生成包含全局语义的上下文向量。
- 通过自注意力机制捕捉文本中的关键信息（如事件、主体、结果），忽略冗余内容。
- 例如，在新闻"Transformer由Google于2017年提出，采用自注意力机制，彻底改变了NLP领域"中，Encoder会重点编码"Transformer""Google 2017""自注意力机制""改变NLP"等关键信息。
Decoder的角色：
- 以Encoder的输出为条件，自回归生成摘要序列（如"Google于2017年提出的Transformer采用自注意力机制，革新了NLP领域"）。
- 利用掩码自注意力确保生成的摘要连贯（如避免重复短语），同时通过编码器-解码器注意力关注Encoder输出的关键信息，保证摘要的准确性。
- 支持不同长度的摘要生成（如短摘要、长摘要），通过长度惩罚机制控制输出长度。

示例代码（文本摘要）

python 复制代码

from transformers import T5Tokenizer, T5ForConditionalGeneration

# 加载摘要模型（T5采用Encoder-Decoder架构）
tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

# 输入长文本（需添加"summarize:"前缀，符合T5任务格式）
text = """
Transformer is a deep learning model introduced in 2017. It uses self-attention mechanisms 
to process input data in parallel, making it more efficient than RNNs. Transformers have 
revolutionized natural language processing, powering models like BERT and GPT.
"""
input_text = "summarize: " + text

# 输入处理
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)

# 生成摘要
outputs = model.generate(**inputs, max_length=100, num_beams=4, early_stopping=True)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
# 输出："Introduced in 2017, Transformer uses self-attention mechanisms to process input data in parallel, 
# making it more efficient than RNNs. It has revolutionized NLP, powering models like BERT and GPT."

76. 对话系统中，Transformer如何实现上下文理解和多轮对话连贯性？

原理说明

对话系统（如客服机器人、聊天机器人）中，Transformer通过以下方式实现上下文理解和多轮连贯性：

1.** 上下文编码 **：

将多轮对话历史（如"用户问：推荐一部电影？""系统答：《盗梦空间》""用户问：谁导演的？"）拼接为一个序列，作为Transformer的输入。
利用自注意力机制捕捉轮次间的依赖关系（如"谁导演的？"中的"谁"指代前文的《盗梦空间》）。

2.** 对话状态跟踪 **：

通过Encoder编码对话历史，生成包含用户意图、实体信息的上下文向量（如用户提到的电影名、偏好）。
例如，在点餐对话中，模型需记住用户之前点的"汉堡"和"可乐"，避免重复询问。

3.** 响应生成 **：

Decoder以Encoder的输出为条件，结合掩码自注意力生成连贯的回复，确保回复与前文逻辑一致（如避免话题跳脱）。
部分模型（如DialogGPT）采用纯Decoder架构，通过自回归生成直接利用历史对话的上下文。

4.** 多轮一致性优化 **：

训练时引入对话连贯性损失（如惩罚与历史矛盾的回复）。
使用检索增强（如检索相似对话历史）辅助生成合理回复。

示例代码（多轮对话）

python 复制代码

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载对话模型（纯Decoder架构）
tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-medium")
model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-medium")

# 多轮对话历史
history = []
print("开始对话（输入'退出'结束）：")
while True:
    user_input = input("用户：")
    if user_input == "退出":
        break
    # 将用户输入添加到历史，并编码
    input_text = tokenizer.eos_token.join(history + [user_input])
    inputs = tokenizer(input_text + tokenizer.eos_token, return_tensors="pt")
    
    # 生成回复
    outputs = model.generate(** inputs, max_length=100, pad_token_id=tokenizer.eos_token_id)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True).split(tokenizer.eos_token)[-1]
    
    # 更新历史并输出
    history.append(user_input)
    history.append(response)
    print(f"系统：{response}")

# 示例对话：
# 用户：推荐一部科幻电影？
# 系统：《银翼杀手2049》非常棒，视觉效果和剧情都很出色。
# 用户：谁主演的？
# 系统：瑞恩·高斯林和哈里森·福特主演。

77. Transformer在语音识别任务中如何应用？与RNN-based模型相比有何不同？

原理说明

Transformer在语音识别（ASR）中用于将语音信号转换为文本，应用方式如下：

输入处理：
- 将语音信号转换为梅尔频谱图（Mel-spectrogram）等特征序列（时间步×特征维度）。
- 类似文本序列，为语音特征添加位置编码（因语音具有时序性）。
Encoder-Decoder架构：
- Encoder：对语音特征编码，捕捉语音中的声学特征（如音素、语调）和上下文依赖（如连读现象）。
- Decoder：以Encoder输出为条件，生成对应的文本序列（如将"[语音]"转换为"你好"）。

与RNN-based模型（如CTC、Attention-Based RNN）的区别：

对比维度	Transformer-based ASR	RNN-based ASR
并行计算	可并行处理语音特征，训练速度更快	依赖时序递归，并行性差
长距离依赖	自注意力直接建模长语音片段的依赖	需通过记忆单元（如LSTM）传递信息，长距离依赖捕捉弱
特征融合	多头注意力同时关注不同时间尺度的特征	依赖层级递归，特征融合能力有限
灵活性	易与文本语言模型结合（如端到端优化）	声学模型与语言模型分离，整合复杂

示例代码（语音识别）

python 复制代码

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import torch
import soundfile as sf

# 加载语音识别模型（基于Transformer的Wav2Vec2）
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

# 加载语音文件（采样率16kHz）
audio_input, sample_rate = sf.read("audio.wav")

# 特征处理
inputs = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt", padding=True)

# 推理（输出logits，对应拼音/字符）
with torch.no_grad():
    logits = model(** inputs).logits

# 解码为文本
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]
print(transcription)  # 输出："HELLO WORLD"（模型输出大写字母）

78. 推荐系统中，Transformer如何利用注意力机制捕捉用户兴趣和物品特征？

原理说明

在推荐系统中，Transformer的注意力机制可通过建模用户行为序列、用户与物品的交互关系，以及物品自身特征之间的依赖关系，有效捕捉用户兴趣和物品特征，具体表现为：

用户行为序列建模：用户的历史行为（如浏览、购买记录）构成序列，注意力机制能计算序列中不同物品对当前推荐的影响权重，识别用户短期和长期兴趣。例如，用户近期频繁浏览某类商品，注意力会赋予这些商品更高权重。
用户-物品交互建模：将用户特征和物品特征作为输入，通过注意力机制学习两者的匹配程度，捕捉用户对不同物品的偏好。
物品特征关系建模：对于物品的多维度特征（如类别、价格、品牌），注意力机制可挖掘特征间的关联，辅助判断物品与用户兴趣的相关性。

示例代码（简化的基于Transformer的推荐模型）

python 复制代码

import torch
import torch.nn as nn
import torch.nn.functional as F

class RecommendationTransformer(nn.Module):
    def __init__(self, user_feat_dim, item_feat_dim, hidden_dim, num_heads, num_layers):
        super().__init__()
        # 用户特征和物品特征嵌入
        self.user_embedding = nn.Linear(user_feat_dim, hidden_dim)
        self.item_embedding = nn.Linear(item_feat_dim, hidden_dim)
        # 位置编码（用于用户行为序列）
        self.pos_encoding = nn.Embedding(100, hidden_dim)  # 假设最大序列长度为100
        # Transformer编码器
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=hidden_dim,
            nhead=num_heads,
            dim_feedforward=hidden_dim*4,
            batch_first=True
        )
        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        # 输出层（预测用户对物品的点击/购买概率）
        self.output_layer = nn.Linear(hidden_dim, 1)

    def forward(self, user_feats, item_seq_feats, item_seq_len):
        # 物品序列嵌入 + 位置编码
        batch_size, seq_len, _ = item_seq_feats.shape
        item_emb = self.item_embedding(item_seq_feats)  # [batch_size, seq_len, hidden_dim]
        pos_ids = torch.arange(seq_len, device=item_emb.device).unsqueeze(0).repeat(batch_size, 1)  # [batch_size, seq_len]
        pos_emb = self.pos_encoding(pos_ids)  # [batch_size, seq_len, hidden_dim]
        item_seq_emb = item_emb + pos_emb  # [batch_size, seq_len, hidden_dim]
        
        # 构建掩码（忽略填充部分）
        mask = torch.arange(seq_len, device=item_emb.device).unsqueeze(0) >= item_seq_len.unsqueeze(1)  # [batch_size, seq_len]
        mask = mask.unsqueeze(1).repeat(1, seq_len, 1)  # [batch_size, seq_len, seq_len]
        
        # Transformer编码
        encoded_seq = self.transformer_encoder(item_seq_emb, src_mask=mask)  # [batch_size, seq_len, hidden_dim]
        # 取序列最后一个有效位置的输出（代表用户兴趣）
        last_idx = item_seq_len - 1
        user_interest = encoded_seq[torch.arange(batch_size), last_idx]  # [batch_size, hidden_dim]
        
        # 预测分数
        score = self.output_layer(user_interest).squeeze(-1)  # [batch_size]
        return score

79. 代码生成任务中，Transformer的优势体现在哪些方面？

原理说明

Transformer在代码生成任务（如自动补全、代码翻译、根据描述生成代码）中展现出显著优势，主要源于其独特的结构设计：

长距离依赖捕捉能力：代码具有强结构性（如函数调用、循环嵌套、括号匹配），Transformer的自注意力机制可直接建模远距离代码元素间的依赖关系（如变量定义与引用），而RNN类模型受限于序列遍历方式，难以高效捕捉长距离关联。
并行计算能力：Transformer的Encoder和Decoder均采用并行计算（无需等待前一时刻输出），训练效率更高，且能处理更长的代码序列（如完整脚本或项目文件）。
上下文理解的全面性：自注意力机制可同时关注输入序列的所有位置，能综合考虑代码的上下文信息（如周围的函数、注释、变量类型），生成更符合语法和逻辑的代码。
灵活的双向与单向建模：Encoder可双向建模代码上下文（如理解代码片段的前后文），Decoder可单向生成代码序列（符合代码书写的顺序性），结合两者的Seq2Seq结构适合处理"输入描述/代码→输出代码"的任务。
预训练迁移能力：基于大规模代码语料预训练的Transformer模型（如CodeBERT、GPT-Code）可通过微调快速适配特定编程语言或任务，学习代码的语法规则、API使用习惯和逻辑模式。

80. 请举例说明Transformer在生物信息学（如蛋白质结构预测）中的应用。

原理说明

Transformer在生物信息学中被广泛应用于蛋白质结构预测、序列分析、功能注释等任务，其中最具代表性的是AlphaFold（DeepMind开发），其核心依赖Transformer捕捉蛋白质序列中的关键特征：

蛋白质结构预测的核心挑战：蛋白质的氨基酸序列（一维）决定其三维空间结构，而氨基酸之间的相互作用（如氢键、疏水作用）是结构形成的关键，需建模长距离氨基酸的关联。
Transformer的作用：
- 自注意力机制：建模氨基酸序列中任意两个残基（氨基酸单元）之间的距离和相互作用强度，生成"接触图"（Contact Map），指示残基是否在空间中接近。
- 多尺度特征融合：结合氨基酸的物理化学性质（如电荷、疏水性）和进化信息（如多序列比对MSA），通过Transformer层逐步提炼结构特征。
AlphaFold的简化流程：
- 输入：蛋白质的氨基酸序列及通过同源序列搜索得到的MSA特征。
- 处理：使用Transformer编码器对MSA和残基对特征进行编码，通过自注意力捕捉残基间的协同进化关系和空间约束。
- 输出：预测残基间的距离分布、角度信息，最终通过结构模块生成三维坐标。

示例代码（简化的蛋白质序列特征提取）

python 复制代码

import torch
import torch.nn as nn

class ProteinTransformer(nn.Module):
    def __init__(self, num_amino_acids=21, hidden_dim=256, num_heads=8, num_layers=6):
        super().__init__()
        # 氨基酸嵌入（20种常见氨基酸+1种未知）
        self.aa_embedding = nn.Embedding(num_amino_acids, hidden_dim)
        # Transformer编码器（建模氨基酸序列依赖）
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=hidden_dim,
            nhead=num_heads,
            dim_feedforward=hidden_dim*4,
            batch_first=True
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        # 输出层（预测残基接触概率）
        self.contact_head = nn.Linear(hidden_dim, num_amino_acids)

    def forward(self, aa_seq):
        # 氨基酸序列嵌入
        aa_emb = self.aa_embedding(aa_seq)  # [batch_size, seq_len, hidden_dim]
        # Transformer编码
        encoded = self.transformer(aa_emb)  # [batch_size, seq_len, hidden_dim]
        # 预测残基接触概率
        contact_probs = F.softmax(self.contact_head(encoded), dim=-1)  # [batch_size, seq_len, num_amino_acids]
        return contact_probs

# 示例：输入蛋白质序列（氨基酸索引），输出残基接触概率
aa_sequence = torch.tensor([[1, 5, 3, 10, 2, 7, 4, 8]])  # 假设序列长度为8
model = ProteinTransformer()
contact_map = model(aa_sequence)
print("残基接触概率形状：", contact_map.shape)  # [1, 8, 21]

AlphaFold通过类似的Transformer架构，结合多尺度建模和物理约束，将蛋白质结构预测精度提升至接近实验水平，极大推动了结构生物学的发展。

二、120道Transformer面试题目录列表

文章序号	Transformer 120道
1	Transformer面试题及详细答案120道（01-10）
2	Transformer面试题及详细答案120道（11-20）
3	Transformer面试题及详细答案120道（21-30）
4	Transformer面试题及详细答案120道（31-40）
5	Transformer面试题及详细答案120道（41-50）
6	Transformer面试题及详细答案120道（51-60）
7	Transformer面试题及详细答案120道（61-70）
8	Transformer面试题及详细答案120道（71-80）
9	Transformer面试题及详细答案120道（81-90）
10	Transformer面试题及详细答案120道（91-100）
11	Transformer面试题及详细答案120道（101-110）
12	Transformer面试题及详细答案120道（111-120）