Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)

视频链接:bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

    • [1. Transformer basics](#1. Transformer basics)
      • [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
      • [1.2 Transformer(重点)](#1.2 Transformer(重点))
        • [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
        • [1.2.2 Word Representation](#1.2.2 Word Representation)
        • [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
        • [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
        • [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
        • [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
    • [2. Transformer Design Variants](#2. Transformer Design Variants)
    • 3.
    • 4.

1. Transformer basics

1.1 Pre-Transformer Era







1.2 Transformer(重点)

1.2.1 Tokenize words (word -> tokens)



1.2.2 Word Representation



1.2.3 Multi-Head Attention (MHA)





1.2.4 Feed-Forward Network (FFN)


1.2.5 LayerNorm & Residual connection



1.2.6 Position Encoding (PE)




2. Transformer Design Variants

3.

4.

相关推荐
Yao.Li28 分钟前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦31 分钟前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工2 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114247 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光7 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好7 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力8 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用