Datawhale Happy-LLM 课程 task 4:Encoder-Decoder

Datawhale Happy-LLM 课程 task 4:Encoder-Decoder

  • [Seq2Seq 模型](#Seq2Seq 模型)
  • 参考

此博客为Datawhale 组队学习打卡笔记


Seq2Seq 模型

  • 机器翻译任务即是一个经典的 Seq2Seq 任务
  • 一般的思路是进行编码再解码
  • Transformer 由 Encoder 和 Decoder 组成,每一个 Encoder(Decoder)又由 6个 Encoder(Decoder)Layer 组成。
  • Encoder 和 Decoder 内部传统神经网络的经典结构------前馈神经网络(FNN)、层归一化(Layer Norm)和残差连接(Residual Connection),然后进一步分析 Encoder 和 Decoder 的内部结构。

参考

1 https://github.com/datawhalechina/happy-llm

相关推荐
yuanzhengme2 分钟前
Ollama【部署 07】搭建本地智能体的简单说明(局域网离线部署Ollama+模型迁移+Docker部署AnythingLLM)
运维·docker·容器·大模型·ollama·本地智能体
c7691 小时前
【文献笔记】Learn to Relax with LLMs: Solving COPs via Bidirectional Coevolution
论文阅读·人工智能·笔记·语言模型·论文笔记·提示工程
明天好,会的1 小时前
grill-me
语言模型
尘汐筠竹2 小时前
Day1-2 学习笔记:在 AMD 云环境上部署 Gemma 4 大模型
笔记·学习·datawhale·amdev
DogDaoDao3 小时前
【GitHub】last30days-skill 深度技术解析
深度学习·程序员·大模型·github·ai agent·agent skill
MartinYeung53 小时前
[论文学习]LoRA-Leak:针对 LoRA 微调语言模型的成员推断攻击深度分析与隐私风险评估
人工智能·学习·语言模型
硅谷秋水3 小时前
物理人工智能的驾驭工程:机器人中间件是驾驭层
人工智能·机器学习·语言模型·中间件·机器人
Bruce_Liuxiaowei3 小时前
2026年6月第2周网络安全形势周报
人工智能·安全·web安全·ai·大模型·智能体
kuokay3 小时前
MLOps 与 AIOps 的核心概
人工智能·分布式·大模型·agent·llama
Mocode4 小时前
【2026】Datawhale X AMD · Hello ROCm - Part1 - 配置云环境&部署大模型
datawhale·amdev