技术栈

ai面试

TGITCIC
6 小时前
人工智能·大模型·transformer·ai agent·大模型面试·ai面试
为何大模型都使用decoder-only?2017年,BERT的横空出世让双向注意力机制成为NLP领域的“武林盟主”。通过Masked Language Modeling(MLM),BERT在阅读理解、情感分析等任务中展现出惊人的表现,但它的“短板”很快暴露:生成能力堪比“哑巴英语”。彼时的模型若想生成文本,必须依赖编码器-解码器结构,例如T5或BART,这类架构虽能兼顾理解与生成,却因训练效率低下、推理成本高昂而饱受诟病。