《大模型的结构》

一、大模型整体结构

一个大模型其实就是:

文本 -> tokenizer(分词器) -> embedding(变成向量) -> Transformer(核心大脑) -> 输出

二、具体步骤

1、文本输入

比如输入:This Paper is interesting

2、分词器(tokenizer)

"This" , "paper" , "is" , "interest" , "ing"

再变成Token ID(每个大模型的Token ID是不一样的):

101,2023,20021,...

3、Embedding

模型不会直接用数字ID,会变成"向量"(一小串数字):101 -> 0.12, -0.98, 0.33, ...

可以简单的理解为:token -> 坐标点(语义空间)

4、Transformer(核心大脑)

这是大模型最重要的部分,它让每个词互相理解对方
核心机制: Self-Attention(自注意力)

比如:The paper is not good,模型会学"good"要注意"not","paper"和"good"有关系,所以每个token都会看其他token

**Transformer结构:**一个Transformer层大概是:Self-Attention -> Feed Forward(小神经网络) -> 重复很多层(比如12层/32层/96层)

GPT-4这种,几十到上百层Transformer

5、输出

不同模型输出不同:
GPT(生成模型): 输入:This paper is 输出:interesting

**BERT(分类模型)**输入:This paper is interesting 输出:accept / reject

三、总结成一个流程图

文本

tokenizer

token IDs

embedding(变向量)

Transformer(理解语义)

输出(预测 / 生成)

四、可以这样理解整个模型

把它想成一个"超级读书人":

1、tokenizer -> 切词

2、embeding -> 理解词的含义

3、attention -> 看上下文

4、多层网络 -> 深度思考

5、输出 -> 给答案

五、BERT vs GPT

BERT GPT
方向 双向(看前后) 单向(只看前)
用途 分类/理解 生成
例子 accept/reject 写review
相关推荐
EMA2 分钟前
ERP结合多 Agent 项目技术解析文档
人工智能
世间一点尘2 分钟前
我让 Claude Code 修一个 Bug,它却重构了半个项目
人工智能
科技林总2 分钟前
大模型分类测评指标清单
人工智能·可用性测试
为码消得人憔悴3 分钟前
从零开始搭建 Obsidian 知识库
人工智能·aigc·agent
EMA7 分钟前
MaxKB 技术解析文档
人工智能
湘美书院--湘美谈教育7 分钟前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
迦蓝叶13 分钟前
【开源自荐】JAiRouter:一个轻量级 AI 模型服务网关的开源实践
java·人工智能·spring·开源·llm-gateway·mass
Java知识技术分享21 分钟前
opencode安装ui-ux-pro-max和frontend-ui-ux技能
人工智能·ui·个人开发·ai编程·ux
苏映视官方账号27 分钟前
精品案例丨方寸之间,“微” 毫毕现 —— 圆刀机高精度检测工艺优化实例
人工智能·数码相机·视觉检测·制造