技术栈
ai面试
TGITCIC
6 小时前
人工智能
·
大模型
·
transformer
·
ai agent
·
大模型面试
·
ai面试
为何大模型都使用decoder-only?
2017年,BERT的横空出世让双向注意力机制成为NLP领域的“武林盟主”。通过Masked Language Modeling(MLM),BERT在阅读理解、情感分析等任务中展现出惊人的表现,但它的“短板”很快暴露:生成能力堪比“哑巴英语”。彼时的模型若想生成文本,必须依赖编码器-解码器结构,例如T5或BART,这类架构虽能兼顾理解与生成,却因训练效率低下、推理成本高昂而饱受诟病。