3.AI大模型-token是什么-大模型底层运行机制

内容参考于:图灵AI大模型全栈

Token是大模型通用的货币,这个货币是个什么东西?如下图某大模型的Token的收费

它有两个说法,上行流量和下行流量,比如根据xxx生成一个文章,这个就是上行流量,消耗输入Token,给我的文章内容就是下行流量,消耗输出Token

Token的真实样子

如下图一个测试Token的大模型,我们输入的是Running is fun, right ?这句话,它返回的是有7个Token,并且把我们输入的内容拆分成了Running、is、fun、,、right、?

然后它把我们的话拆分成了6个,它是怎么来的7个Token呢?原因是大模型在处理我们输入的内容时,大模型里面会给我添加我们看不到的隐藏文字,比如大模型会推理那么怎么才算推理完成了,比如我喜欢,大模型可能会通过我喜欢这三个字推断出,我喜欢玩游戏这句话,那么大模型是怎么知道推断完成的?怎么就是我喜欢玩游戏这句话?为什么不能是我喜欢玩游戏玩游戏这样呢?这里有一个EOS的东西就是当大模型检测到EOS了就说明推断完成了,不需要再继续推断了,EOS就是一个大模型里面配置的结束符,比如我喜欢玩游戏---END这样当检测到---END后,大模型就认为推断结束了,这个第7个Token可能就会是EOS,多出的Token就是大模型中隐藏的文字

Token就是大模型根据我们输入的内容拆分出来的最小语言,不同大模型的训练不一样,Token拆分的最小语言就不一样,那么这个Token怎么来的?

Token的来源

现代大模型Token的来源是通过学习来的,就是大模型会把整个互联网所有公开的文本,比如新闻、小说、百科、代码等,所有东西都会有人整理出来喂给大模型去读,大模型读的时候会用统计学,自己去想出哪些是Token,比如在读了很多内容后,发现香蕉这个词经常会一起出现,这时大模型会把香蕉两个字搞成一个Token,然后给它一个数字编号,比如111,然后放到大模型它自己的字典里,这样慢慢的搞,大模型就可以形成自己的专属字典

大模型通过Token理解语言

大模型通过海量的内容生成的字典,但是这个字典里面的字是什么意思它不懂,也就说这个Token的意思它不懂,如下图货拉拉拉不拉拉不拉多,我们的意思是货拉拉 拉不拉 拉不拉多,如下图它的Token是货、拉、不、多这四个,大模型是怎么理解的呢?它是通过上下文来理解的,继续往下看

大模型理解文字-向量

我们人看到的文字,比如可乐、米饭,但是大模型眼里是没有汉字的,只有一串串数字(向量),比如可乐,我们规定1、2、3这三个数字组成一个可乐,然后米饭使用5、6、7来组成,这些数字就是特征,1、2、3就是可乐的特征,5、6、7就是米饭的特征,然后大模型怎么理解呢,怎么给一个没见过可乐的人描述可乐呢,就是跟它说可乐的特征,比如黑色、很甜、很辣,也就是1(黑色百分比)、2(甜度的百分比)、3(辣度的百分)这样通过描述可乐的特征,没见过可乐的人就可以知道可乐是什么东西,1、2、3和5、6、7做一个计算,会得到一个差值,这个差值越大它们俩越不相似,差值越小就越相似,就是说意思越相近的词,就是通过对特征的计算来理解语言,向量数字越像;意思八竿子打不着,数字差别巨大

向量的训练过程

一开始可乐、米饭向量都是差不多的,通过读海量的文本慢慢的调整这些文字特征数字的大小,比如看到可乐经常跟无糖、有糖、去冰一起出现,那就把糖率、冰饮率调高,看到可乐很少跟可以飞、可以变身一起出现,那就把这些无关紧要的数字(率)变小,训练完后,特征一样的肯定都会在一个维度,这样大模型就可以理解了,到这就可以很清晰的认识Token了,Token就是大模型的字典,根据不同的训练Token也不一样,无法预测无法掌控

大模型推理过程,下发是ai生成的很好理解

第一步:你输入一句话

比如:夏天我喜欢喝

大模型看不懂汉字,第一件事:

把「夏天、我、喜欢、喝」每一个词,全都转换成自己的向量数字

再把这一整串向量拼在一起,变成整句话的专属数字特征

相当于模型拿着一张数字版的 "句子画像"


第二步:靠向量比对,猜下一个该接什么词

模型拿着「夏天我喜欢喝」的整句向量

去和它脑子里所有词语的向量挨个做对比:

  • 奶茶的向量:相似度特别高
  • 咖啡的向量:相似度次之
  • 果汁的向量:也有点像
  • 篮球的向量:几乎完全不搭,差得老远

模型就按向量相似度高低,排好名次:

奶茶 > 咖啡 > 果汁 > 篮球

然后优先挑相似度最高的,先接上奶茶

现在句子变成:夏天我喜欢喝奶茶


第三步:循环套娃,一个词一个词往外蹦

关键来了:

模型不会一次性写完所有话,它只会每次只猜下一个词

  1. 把新句子「夏天我喜欢喝奶茶」重新转成新的整句向量
  2. 再拿这个新向量,去比对所有词语的向量
  3. 算出相似度最高的词是,直接接上
  4. 句子更新为:夏天我喜欢喝奶茶加
  5. 再转向量、再比对、再猜下一个词→珍珠

就这样:

转向量 → 比对相似度 → 选下一个词 → 拼成新句子 → 再转向量

无限重复,直到模型觉得话说完了,就停下。


第四步:为啥它不像计算器,答案不唯一?

计算器 1+1 只能 = 2,是固定死的。

但看向量就懂了:

「夏天我喜欢喝」这句的向量,

不只是和奶茶贴近,和咖啡、果汁的向量也很贴近

好几个词的相似度都很高,不是只有唯一一个匹配。

所以它可以选奶茶,也可以选咖啡,不是只能有一个答案。

而篮球的向量差太远,正常情况下根本轮不到它被选中。


第五步:三个参数,其实就是控制「向量选词的规矩」

全大白话,绑定向量+奶茶例子,每个都加具体示例,这三个值怎么设置没有固定的,可以问ai让ai推荐,一看就懂:

1. Temperature(温度)------控制"脑洞大小"(最常用)

核心:控制"要不要选向量相似度没那么高的词",数值越低越老实,越高越放飞。

示例1:温度调得低(比如0.1,几乎不脑洞)

模型只认「向量相似度最高」的词,别的再接近也不选。

输入「夏天我喜欢喝」,它只看向量排名第一的「奶茶」,直接接上,不会选咖啡、果汁------就像你认真答题,只说最标准、最常见的答案,不瞎猜。

示例2:温度调得高(比如0.8,脑洞拉满)

模型允许选「向量相似度一般」的词,不局限于第一名。

输入「夏天我喜欢喝」,它可能不选奶茶,反而选向量相似度排第四的「气泡水」,甚至偶尔选「冰粥」(只要向量有点贴近)------就像你和朋友瞎聊,随口说个不常见但合理的答案,有点创意,也可能有点离谱。

2. Top-K------控制"选词的名额"

核心:直接规定"只从向量相似度排名前K个词里挑",剩下向量差得远的,直接拉黑不许选(K就是名额数)。

示例1:Top-K设为3

模型只看向量排名前3的词:奶茶、咖啡、果汁,剩下的气泡水、篮球(排名4、5及以后),不管向量多贴近(气泡水其实也合理),都不许选。

输入「夏天我喜欢喝」,只能从奶茶、咖啡、果汁里挑一个,不会出现气泡水、篮球这种"冷门选项",避免乱编。

示例2:Top-K设为1

模型只选向量相似度排名第一的词------也就是奶茶,和"温度调0.1"效果差不多,极度死板,永远只说最常见的答案。

3. Top-P(也叫 Nucleus Sampling)------控制"选词的靠谱程度"

核心:不按"排名名额",按"相似度总和",把所有向量相似度够格的词圈成一个小圈子,只在圈子里选词,既不呆板也不瞎跑偏。

示例1:Top-P设为0.8(最常用,靠谱又灵活)

模型先算所有词的向量相似度总和,然后从最高的开始加,加到0.8就停,把这些词圈成"靠谱圈子"。

比如:奶茶相似度0.4、咖啡0.25、果汁0.15,加起来刚好0.8------那圈子里就只有奶茶、咖啡、果汁,气泡水(相似度0.08)、篮球(0.02)加进去也到不了0.8,就被排除。

输入「夏天我喜欢喝」,只在这三个词里挑,既不会只死磕奶茶(像Top-K=1那样),也不会选气泡水、篮球(避免离谱)。

示例2:Top-P设为0.5(靠谱到死板)

只把向量相似度加起来够0.5的词圈进去,大概率只有奶茶(相似度0.4)+ 咖啡(0.25),加起来0.65够0.5,果汁(0.15)加进去多余,就被排除。

输入「夏天我喜欢喝」,只能在奶茶、咖啡里挑,比Top-P=0.8更死板一点。

一句话终极总结

大模型理解语言、生成回答,全程就靠向量:

文字变向量 → 用向量比相似度 → 每次挑最匹配的下一个词 → 循环接龙成一整段话,三个参数就是给"挑词"定规矩,控制它是老实答题还是创意发挥。


相关推荐
马***4112 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰2 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky05532 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu2 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
阿乔外贸日记2 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
8Qi83 小时前
LeetCode 75:颜色分类(荷兰国旗问题)—— Java 题解 ✅
java·算法·leetcode·指针·排序
民乐团扒谱机3 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈3 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说3 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar3 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试