《大模型的结构》

一、大模型整体结构

一个大模型其实就是:

文本 -> tokenizer(分词器) -> embedding(变成向量) -> Transformer(核心大脑) -> 输出

二、具体步骤

1、文本输入

比如输入:This Paper is interesting

2、分词器(tokenizer)

"This" , "paper" , "is" , "interest" , "ing"

再变成Token ID(每个大模型的Token ID是不一样的):

101,2023,20021,...

3、Embedding

模型不会直接用数字ID,会变成"向量"(一小串数字):101 -> 0.12, -0.98, 0.33, ...

可以简单的理解为:token -> 坐标点(语义空间)

4、Transformer(核心大脑)

这是大模型最重要的部分,它让每个词互相理解对方
核心机制: Self-Attention(自注意力)

比如:The paper is not good,模型会学"good"要注意"not","paper"和"good"有关系,所以每个token都会看其他token

**Transformer结构:**一个Transformer层大概是:Self-Attention -> Feed Forward(小神经网络) -> 重复很多层(比如12层/32层/96层)

GPT-4这种,几十到上百层Transformer

5、输出

不同模型输出不同:
GPT(生成模型): 输入:This paper is 输出:interesting

**BERT(分类模型)**输入:This paper is interesting 输出:accept / reject

三、总结成一个流程图

文本

tokenizer

token IDs

embedding(变向量)

Transformer(理解语义)

输出(预测 / 生成)

四、可以这样理解整个模型

把它想成一个"超级读书人":

1、tokenizer -> 切词

2、embeding -> 理解词的含义

3、attention -> 看上下文

4、多层网络 -> 深度思考

5、输出 -> 给答案

五、BERT vs GPT

BERT GPT
方向 双向(看前后) 单向(只看前)
用途 分类/理解 生成
例子 accept/reject 写review
相关推荐
鉴生Eric几秒前
拉孚空间认知 AI 智能体:重塑存量建筑运营新模式
大数据·人工智能
QiLinkOS4 分钟前
第三视觉理解徐玉生与他的商业活动(26)
大数据·c++·人工智能·算法·开源协议
郭泽斌之心5 分钟前
给 AI 交易助手做 LLM 网关:多通道负载均衡 + 静默失败自动切换
人工智能·经验分享·ea·mt5·fay数字人·easydeal
特别关注外国供应商7 分钟前
Cohesity 获得 第 12,619,501 号专利,该专利涵盖了其企业数据生成式人工智能平台 Cohesity Gaia™ 的基础技术
人工智能·专利·rag·genai·ai工具·gaia·cohesity
北邮刘老师10 分钟前
“移动梦网”走了,“移动智网”会来吗?
人工智能·大模型·智能体·智能体互联网
Python私教12 分钟前
如意知识库工厂:我用 DocsGPT 跑通了一套私有 RAG 问答系统
人工智能
刘一说16 分钟前
AI科技热点日报 | 2026年7月3日
人工智能·科技
程序喵大人17 分钟前
【AI专栏】图解Transformer - 第01章:建立直觉
人工智能·深度学习·ai·transformer
2601_9623446217 分钟前
计算机毕业设计之基于大数据的投保数据的分析系统的设计与实现
大数据·人工智能·深度学习·机器学习·信息可视化·小程序·课程设计