大模型面试题:prefixDecodercausalDecoder和EncoderDecodder的区别是什么

我整理好的1000+面试题,请看
大模型面试题总结-CSDN博客

或者

https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md

最好将URL复制到浏览器中打开,不然可能无法直接打开


好了,我们今天针对上面的问题,

prefixDecoder、causalDecoder和Encoder-Decoder的区别是什么?

prefix Decoder、causal Decoder 和 Encoder-Decoder 的区别在于 attention mask 不同:

Encoder-Decoder

  • 介绍:输入双向注意力,输出单向注意力

  • 代表模型:T5、Flan-T5、BART

  • 特点

    • 在输入上采用双向注意力,对问题的编码理解更充分

    • 适用任务:在偏理解的 NLP 任务上效果好

    • 缺点:在长文本生成任务上效果差,训练效率低

causal Decoder

  • 特点
    • 自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的 token 才能看到前面的 token 的规则

    • 适用任务:文本生成任务效果好

    • 优点:训练效率高,zero-shot 能力更强,具有涌现能力

prefix Decoder

  • 特点:prefix 部分的 token 互相能看到,是 causal Decoder 和 Encoder-Decoder 的折中

  • 缺点:训练效率低

相关推荐
火山引擎开发者社区1 小时前
来ArkClaw零门槛「养虾」!火山方舟Coding Plan用户抢先体验
人工智能
coft1 小时前
想搭上 AI 这趟车?你不需要先学编程
人工智能
双层吉士憨包1 小时前
Google Voice保号教程
大数据·服务器·人工智能
SeaTunnel2 小时前
Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注
数据仓库·人工智能·apache·etl·seatunnel·数据同步
輕華2 小时前
零基础吃透 CNN 卷积神经网络:MNIST 手写数字识别实战全解(附完整可运行代码)
人工智能·神经网络·cnn
天涯明月19932 小时前
OpenClaw项目(龙虾)架构和实现原理详解
人工智能·大模型
Microvision维视智造2 小时前
小龙虾包装前缺陷智能视觉检测方案:告别人工分选,实现高效标准化品控
人工智能·计算机视觉·视觉检测·检测设备
㱘郳2 小时前
B站黑马的深度学习和自然语言处理的飞书笔记,pytorch入门笔记
深度学习·自然语言处理·飞书
JEECG低代码平台2 小时前
终端里的AI搭档:我用Claude Code提效的实战心得
前端·人工智能·chrome