Transformer和LLM前沿内容（1）：Transformer and LLM（注定成为经典）

自动驾驶小学生2025-12-15 11:45

视频链接：bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容，今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

- [1. Transformer basics](#1. Transformer basics)
- - [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
  - [1.2 Transformer（重点）](#1.2 Transformer（重点）)
  - - [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
    - [1.2.2 Word Representation](#1.2.2 Word Representation)
    - [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
    - [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
    - [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
    - [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
- [2. Transformer Design Variants](#2. Transformer Design Variants)
- 3.
- 4.

1. Transformer basics

1.1 Pre-Transformer Era

1.2 Transformer（重点）

1.2.1 Tokenize words (word -> tokens)

1.2.2 Word Representation

1.2.3 Multi-Head Attention (MHA)

1.2.4 Feed-Forward Network (FFN)

1.2.5 LayerNorm & Residual connection

1.2.6 Position Encoding (PE)

2. Transformer Design Variants

3.

4.

上一篇：C# 中如何从 URL 下载 Word 文档：基于 Spire.Doc 的高效解决方案

下一篇：嵌入式项目之温湿度闹钟

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03OpenClaw Chrome扩展使用教程 - 浏览器中继控制 04Linux下V2Ray安装配置指南 05使用 1panel面板部署 php网站 06UV安装并设置国内源 07openclaw配置教程（linux+局域网ollama）08Vue-skills的中文文档 09让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 10Claude Code Skills 实用使用手册