大模型面试题:prefixDecodercausalDecoder和EncoderDecodder的区别是什么

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

prefixDecoder、causalDecoder和Encoder-Decoder的区别是什么?

prefix Decoder、causal Decoder 和 Encoder-Decoder 的区别在于 attention mask 不同:

Encoder-Decoder

  • 介绍:输入双向注意力,输出单向注意力

  • 代表模型:T5、Flan-T5、BART

  • 特点

    • 在输入上采用双向注意力,对问题的编码理解更充分

    • 适用任务:在偏理解的 NLP 任务上效果好

    • 缺点:在长文本生成任务上效果差,训练效率低

causal Decoder

  • 特点
    • 自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的 token 才能看到前面的 token 的规则

    • 适用任务:文本生成任务效果好

    • 优点:训练效率高,zero-shot 能力更强,具有涌现能力

prefix Decoder

  • 特点:prefix 部分的 token 互相能看到,是 causal Decoder 和 Encoder-Decoder 的折中

  • 缺点:训练效率低

相关推荐
weixin_5051544643 分钟前
打破传统界限:Bowell Studio引领3D作业指导新纪元
人工智能·3d·制造·数据安全·数字孪生·数据可视化
ModelHub XC信创模盒2 小时前
中国信创AI生态下 “信创模盒”社区战略招募种子用户
人工智能·大模型·开发者·信创·算力
袋鼠云数栈3 小时前
集团数字化统战实战:统一数据门户与全业态监管体系构建
大数据·数据结构·人工智能·多模态
廋到被风吹走3 小时前
【AI】Codex 多语言实测:Python/Java/JS/SQL 效果横评
java·人工智能·python
cskywit3 小时前
【IEEE TNNLS 2025】赋予大模型“跨院行医”的能力:基于全局与局部提示的医学图像泛化框架 (GLP) 解析
人工智能
2501_948114243 小时前
AI API Gateway 选型指南:2026 年生产环境下的聚合平台深度对比
人工智能·gateway
实在智能RPA4 小时前
Agent 在物流行业能实现哪些自动化?——深度拆解 AI Agent 驱动的智慧物流新范式
运维·人工智能·ai·自动化
TechubNews4 小时前
Jack Dorsey:告别传统公司层级,借助 AI 走向智能体架构
大数据·人工智能
伴野星辰4 小时前
如何提高YOLO8目标检测的准确性?
人工智能·目标检测·机器学习
胡耀超5 小时前
Token的八副面孔:为什么“词元“不需要更好的翻译,而需要更多的读者
大数据·人工智能·python·agent·token·代币·词元