Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)

视频链接:bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

    • [1. Transformer basics](#1. Transformer basics)
      • [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
      • [1.2 Transformer(重点)](#1.2 Transformer(重点))
        • [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
        • [1.2.2 Word Representation](#1.2.2 Word Representation)
        • [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
        • [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
        • [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
        • [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
    • [2. Transformer Design Variants](#2. Transformer Design Variants)
    • 3.
    • 4.

1. Transformer basics

1.1 Pre-Transformer Era







1.2 Transformer(重点)

1.2.1 Tokenize words (word -> tokens)



1.2.2 Word Representation



1.2.3 Multi-Head Attention (MHA)





1.2.4 Feed-Forward Network (FFN)


1.2.5 LayerNorm & Residual connection



1.2.6 Position Encoding (PE)




2. Transformer Design Variants

3.

4.

相关推荐
AI科技星1 天前
引力场与磁场的几何统一:磁矢势方程的第一性原理推导、验证与诠释
数据结构·人工智能·经验分享·线性代数·算法·计算机视觉·概率论
shayudiandian1 天前
AI写作助手测评大会
人工智能·chatgpt·ai写作
明明如月学长1 天前
深度揭秘:为什么顶尖开发者都开始在终端用 Claude Code 写代码?
人工智能
Debroon1 天前
openCHA: 个性化LLM驱动的对话健康代理框架
人工智能
心动啊1211 天前
了解语音识别模型Whisper
人工智能·whisper·语音识别
irises1 天前
开源项目next-ai-draw-io核心能力拆解
前端·后端·llm
irises1 天前
通过`ai.js`与`@ai-sdk`实现前后端tool注入与交互
前端·后端·llm
汤姆yu1 天前
基于深度学习的车牌识别系统
人工智能·深度学习
数智大号1 天前
艾利特×迈幸机器人:引领智能操作新范式,开启具身智能新纪元
人工智能·数据挖掘
wechat_Neal1 天前
智能座舱_车载语音交互相关技术术语简介
人工智能·语音识别