Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)

视频链接:bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

    • [1. Transformer basics](#1. Transformer basics)
      • [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
      • [1.2 Transformer(重点)](#1.2 Transformer(重点))
        • [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
        • [1.2.2 Word Representation](#1.2.2 Word Representation)
        • [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
        • [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
        • [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
        • [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
    • [2. Transformer Design Variants](#2. Transformer Design Variants)
    • 3.
    • 4.

1. Transformer basics

1.1 Pre-Transformer Era







1.2 Transformer(重点)

1.2.1 Tokenize words (word -> tokens)



1.2.2 Word Representation



1.2.3 Multi-Head Attention (MHA)





1.2.4 Feed-Forward Network (FFN)


1.2.5 LayerNorm & Residual connection



1.2.6 Position Encoding (PE)




2. Transformer Design Variants

3.

4.

相关推荐
Luhui Dev几秒前
AHE 深度解析:Coding Agent 的 Harness 如何自动演化
人工智能·agent·luhuidev
码农的神经元1 分钟前
从论文复现到模型升级:Transformer-Attention-WOA-XGBoost 在含新能源配电网故障诊断中的实现
人工智能·深度学习·transformer
EnCi Zheng1 分钟前
04-缩放点积注意力代码实现 [特殊字符]
人工智能·pytorch·python
一江寒逸2 分钟前
5个免费开源大模型API,完美平替OpenAI,个人开发完全够用了(2026最新保姆级指南)
人工智能·个人开发
不愿透露姓名的大鹏3 分钟前
2026全网最全AI Skill开源合集|从爆火角色蒸馏到全场景生产级技能开箱即用
人工智能·开源
陈天伟教授5 分钟前
AI 未来趋势:智能体与职业教育
人工智能
云帆40413 分钟前
有了 AI Coding,是否还需要架构设计?
人工智能·系统架构·ai编程
智能化咨询16 分钟前
(112页PPT)德勤制造业企业数据治理平台规划方案(附下载方式)
大数据·运维·人工智能
波动几何17 分钟前
代谢慢病“非药而愈“十大功能集群技能体系技能metabolic-healing-skill-system
人工智能
java1234_小锋18 分钟前
Spring AI 2.0 开发Java Agent智能体 - Advisors —— 拦截器模式增强AI能力
java·人工智能·spring·ai·spring ai2.0