Datawhale Happy-LLM 课程 task 4:Encoder-Decoder

Datawhale Happy-LLM 课程 task 4:Encoder-Decoder

  • [Seq2Seq 模型](#Seq2Seq 模型)
  • 参考

此博客为Datawhale 组队学习打卡笔记


Seq2Seq 模型

  • 机器翻译任务即是一个经典的 Seq2Seq 任务
  • 一般的思路是进行编码再解码
  • Transformer 由 Encoder 和 Decoder 组成,每一个 Encoder(Decoder)又由 6个 Encoder(Decoder)Layer 组成。
  • Encoder 和 Decoder 内部传统神经网络的经典结构------前馈神经网络(FNN)、层归一化(Layer Norm)和残差连接(Residual Connection),然后进一步分析 Encoder 和 Decoder 的内部结构。

参考

1\]

相关推荐
这是谁的博客?4 分钟前
[模型解析] GPT: 模型演进分析从GPT-3到GPT-5.5
gpt·ai·chatgpt·大模型·gpt-3·openai
养肥胖虎24 分钟前
完整学习LLM(一):为什么我要系统学习大模型
大模型·llm·学习路线
解局易否结局26 分钟前
理解 ops-transformer 在昇腾NPU架构中的位置:把大模型算子放进厨房里讲
深度学习·架构·transformer
小明同学0128 分钟前
C++后端项目:统一大模型接入 SDK(五)
服务器·c++·后端·计算机网络·语言模型
这是谁的博客?42 分钟前
[模型解析] DeepSeek: 技术创新与架构解析
ai·架构·大模型·moe·开源模型·deepseek·国产ai
这是谁的博客?1 小时前
[模型解析] Gemini: 多模态技术架构深度解析
ai·google·架构·大模型·多模态·视频生成·gemini
程序猿编码1 小时前
大模型的“文字障眼法“:FlipAttack 文本反转越狱技术全解析
linux·python·ai·大模型
Yunzenn1 小时前
深度分析字节最新研究cola-DLM第 01 章:语言生成的三次范式之争 —— 从 RNN 到 AR 到扩散
linux·人工智能·rnn·深度学习·机器学习·架构·transformer
renhongxia12 小时前
从GPT到开源大模型
人工智能·gpt·生成对抗网络·语言模型·自然语言处理·开源
一勺菠萝丶2 小时前
常见 AI 模型类型整理:大语言模型、聊天模型、推理模型、Embedding 模型到底有什么区别?
人工智能·语言模型·embedding