《大模型的结构》

一、大模型整体结构

一个大模型其实就是:

文本 -> tokenizer(分词器) -> embedding(变成向量) -> Transformer(核心大脑) -> 输出

二、具体步骤

1、文本输入

比如输入:This Paper is interesting

2、分词器(tokenizer)

"This" , "paper" , "is" , "interest" , "ing"

再变成Token ID(每个大模型的Token ID是不一样的):

101,2023,20021,...

3、Embedding

模型不会直接用数字ID,会变成"向量"(一小串数字):101 -> [0.12, -0.98, 0.33, ...]

可以简单的理解为:token -> 坐标点(语义空间)

4、Transformer(核心大脑)

这是大模型最重要的部分,它让每个词互相理解对方
核心机制: Self-Attention(自注意力)

比如:The paper is not good,模型会学"good"要注意"not","paper"和"good"有关系,所以每个token都会看其他token

**Transformer结构:**一个Transformer层大概是:Self-Attention -> Feed Forward(小神经网络) -> 重复很多层(比如12层/32层/96层)

GPT-4这种,几十到上百层Transformer

5、输出

不同模型输出不同:
GPT(生成模型): 输入:This paper is 输出:interesting

**BERT(分类模型)**输入:This paper is interesting 输出:accept / reject

三、总结成一个流程图

文本

tokenizer

token IDs

embedding(变向量)

Transformer(理解语义)

输出(预测 / 生成)

四、可以这样理解整个模型

把它想成一个"超级读书人":

1、tokenizer -> 切词

2、embeding -> 理解词的含义

3、attention -> 看上下文

4、多层网络 -> 深度思考

5、输出 -> 给答案

五、BERT vs GPT

BERT GPT
方向 双向(看前后) 单向(只看前)
用途 分类/理解 生成
例子 accept/reject 写review
相关推荐
一点一木3 小时前
深度体验TRAE SOLO移动端7天:作为独立开发者,我把工作流揣进了兜里
前端·人工智能·trae
Lee川4 小时前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
weelinking4 小时前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局4 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
研华科技Advantech5 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能
Lab_AI5 小时前
AI for Science: MaXFlow AI Agent+ 报告体验双升级,让AI智能体更高效易用!
人工智能·ai for science·ai agent·ai智能体
李坤5 小时前
让 Codex 和 Claude 互相 Review:告别手动复制
人工智能·openai·claude
南屹川5 小时前
【API设计】GraphQL实战:从REST到GraphQL的演进
人工智能
KJ_BioMed5 小时前
当计算生物学遇上生成式AI:从头设计生物分子的“新范式”初探
人工智能·从头设计·生命科学·生物医药·科研干货·科晶生物
明月醉窗台5 小时前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo