Transformer和LLM前沿内容(1):Transformer and LLM(注定成为经典)

视频链接:bilibi

本系列将会介绍Transformer基础知识和Large Language Model前沿内容,今天记录的内容来自于MIT Song Han老师课程内容。

文章目录

    • [1. Transformer basics](#1. Transformer basics)
      • [1.1 Pre-Transformer Era](#1.1 Pre-Transformer Era)
      • [1.2 Transformer(重点)](#1.2 Transformer(重点))
        • [1.2.1 Tokenize words (word -> tokens)](#1.2.1 Tokenize words (word -> tokens))
        • [1.2.2 Word Representation](#1.2.2 Word Representation)
        • [1.2.3 Multi-Head Attention (MHA)](#1.2.3 Multi-Head Attention (MHA))
        • [1.2.4 Feed-Forward Network (FFN)](#1.2.4 Feed-Forward Network (FFN))
        • [1.2.5 LayerNorm & Residual connection](#1.2.5 LayerNorm & Residual connection)
        • [1.2.6 Position Encoding (PE)](#1.2.6 Position Encoding (PE))
    • [2. Transformer Design Variants](#2. Transformer Design Variants)
    • 3.
    • 4.

1. Transformer basics

1.1 Pre-Transformer Era







1.2 Transformer(重点)

1.2.1 Tokenize words (word -> tokens)



1.2.2 Word Representation



1.2.3 Multi-Head Attention (MHA)





1.2.4 Feed-Forward Network (FFN)


1.2.5 LayerNorm & Residual connection



1.2.6 Position Encoding (PE)




2. Transformer Design Variants

3.

4.

相关推荐
豆芽8195 小时前
计算机视觉:异常检测(paper with code汇总更新中)
人工智能·神经网络·计算机视觉·视觉检测·扩散模型
semantist@语校5 小时前
第五十五篇|从解释约束到结构化认知:京都国际学院的语言学校Prompt工程化实践
大数据·数据库·人工智能·python·百度·prompt·知识图谱
longvoyage5 小时前
MindSpore社区活动:在对抗中增强网络
网络·人工智能·深度学习
科士威传动5 小时前
如何为特定应用选型滚珠导轨?
人工智能·科技·机器人·自动化·制造
imbackneverdie5 小时前
什么是Token?——理解自然语言处理中的基本单位
数据库·人工智能·自然语言处理·aigc·token
ai_xiaogui5 小时前
Stable Diffusion Web UI 整合包一键安装教程:Windows/Mac零基础部署AI绘画工具
人工智能·ai作画·stable diffusion·一键整合包·ai生图神器·ai生图和动作迁移
小马过河R5 小时前
浅谈AI辅助编码从氛围编程Vibe Coding到基于spec规范驱动开发
人工智能·驱动开发·ai编程
Useasy_JIJIANYUN5 小时前
极简云UE智能体:从 “售前营销” 到 “服务提效”,这套产品逻辑到底强在哪?
人工智能
3D打印资源库5 小时前
官宣:汇纳科技收购华速实业;融速科技完成A+轮融资;3D打印单季破40亿美元|库周报
人工智能·科技·3d