Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)

视频链接:bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

    • [1. Transformer basics](#1. Transformer basics)
      • [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
      • [1.2 Transformer(重点)](#1.2 Transformer(重点))
        • [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
        • [1.2.2 Word Representation](#1.2.2 Word Representation)
        • [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
        • [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
        • [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
        • [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
    • [2. Transformer Design Variants](#2. Transformer Design Variants)
    • 3.
    • 4.

1. Transformer basics

1.1 Pre-Transformer Era







1.2 Transformer(重点)

1.2.1 Tokenize words (word -> tokens)



1.2.2 Word Representation



1.2.3 Multi-Head Attention (MHA)





1.2.4 Feed-Forward Network (FFN)


1.2.5 LayerNorm & Residual connection



1.2.6 Position Encoding (PE)




2. Transformer Design Variants

3.

4.

相关推荐
Elastic 中国社区官方博客9 小时前
Elasticsearch:Workflows 介绍 - 9.3
大数据·数据库·人工智能·elasticsearch·ai·全文检索
组合缺一9 小时前
Solon AI (Java) v3.9 正式发布:全能 Skill 爆发,Agent 协作更专业!仍然支持 java8!
java·人工智能·ai·llm·agent·solon·mcp
哈__9 小时前
CANN: AI 生态的异构计算核心,从架构到实战全解析
人工智能·架构
熊猫钓鱼>_>9 小时前
移动端开发技术选型报告:三足鼎立时代的开发者指南(2026年2月)
android·人工智能·ios·app·鸿蒙·cpu·移动端
想你依然心痛10 小时前
ModelEngine·AI 应用开发实战:从智能体到可视化编排的全栈实践
人工智能·智能体·ai应用·modelengine
KIKIiiiiiiii10 小时前
微信个人号API二次开发中的解决经验
java·人工智能·python·微信
哈哈你是真的厉害10 小时前
解构 AIGC 的“核动力”引擎:华为 CANN 如何撑起万亿参数的大模型时代
人工智能·aigc·cann
Ekehlaft10 小时前
这款国产 AI,让 Python 小白也能玩转编程
开发语言·人工智能·python·ai·aipy
哈__10 小时前
CANN多模型并发部署方案
人工智能·pytorch
深鱼~10 小时前
Attention机制加速实战:基于ops-transformer的性能优化
深度学习·性能优化·transformer·cann