揭秘大语言模型:从文字到数字,token 是如何变成向量的?

揭秘大语言模型:从文字到数字,token 是如何变成向量的?


你有没有想过,ChatGPT 这样的大语言模型是怎么 "看懂" 文字的?其实,它们靠的是一套 "数字密码"------ 把文字变成向量。今天就用大白话,带你看懂这个神奇过程。

第一步:文字先拆成 "小零件"------token

大模型处理文字前,会先把句子拆成最小单位 "token"。就像把拼图拆成小块,方便后续处理。

(此处建议配图:左侧是一句话 "我爱吃苹果",被拆成右侧的 token "我""爱""吃""苹果",每个 token 用不同颜色方块表示)

token 分三种常见类型:

  • 单词级:比如 "apple" 就是一个 token
  • 子词级:长单词会拆成片段,如 "unhappy" 拆成 "un""happy"
  • 字符级:每个字 / 字母单独算,如 "cat" 拆成 "c""a""t"

第二步:给 "小零件" 贴标签 ------ 从 token 到 ID

拆好的 token 不能直接被模型识别,得先变成数字。就像给每个零件编个唯一编号,比如:

(此处建议配图:左侧是不同 token "我""爱""a""b",右侧对应数字 ID "1""2""3""4",用箭头连接)

  • "我"→ID:1
  • "爱"→ID:2
  • "a"→ID:3

第三步:编号变 "坐标"------ID 到向量

有了 ID,还要通过 "嵌入层" 变成向量。向量就像 token 在数字空间里的 "坐标",比如 0.2, 0.5, -0.3(维度通常有几百到几千)。

(此处建议配图:一个表格样式的 "嵌入层查找表",行是 ID,列是向量维度,ID "1" 对应一行数字,用箭头指向一个三维坐标点表示向量)

向量的 "成长记":从随机到有意义

刚生成的向量是随机数字,没啥含义。但经过海量文本训练后,奇迹发生了:

(此处建议配图:左侧是杂乱分布的向量点,标注 "训练前";右侧是聚集的向量群,"高兴""开心" 聚在一堆,"大""小" 分在两边,标注 "训练后")

  • 模型通过 "损失函数" 判断预测对错,用 "梯度下降" 调整向量数值
  • 最后,语义近的 token 向量会靠得近(如 "爸爸" 和 "父亲"),相反的则离得远(如 "冷" 和 "热")

为啥要费这劲?

因为模型只懂数学运算。向量让文字能被 "计算":比如 "国王 - 男人 + 女人≈王后",这种神奇的语义关系,就是靠向量运算实现的。

(此处建议配图:用箭头表示向量运算,"国王" 向量减去 "男人" 向量,加上 "女人" 向量,箭头终点指向 "王后" 向量)


从文字拆成 token,到变成 ID,再转化为有语义的向量,这三步就是大模型 "理解" 语言的核心。看似复杂的过程,本质是把人类语言翻译成机器能懂的数字密码。

未来随着技术发展,这套 "翻译系统" 会越来越精准,说不定哪天,模型真能像人类一样理解文字背后的喜怒哀乐呢~

相关推荐
升鲜宝供应链及收银系统源代码服务4 分钟前
升鲜宝AI助手 E-R 图与操作说明书(三)---升鲜宝生鲜配送供应链管理系统源代码服务
大数据·人工智能·机器学习·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·门店连锁系统源代码
财经资讯数据_灵砚智能4 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月5日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
俊哥V4 分钟前
每日 AI 研究简报 · 2026-06-06
人工智能·ai
米小虾6 分钟前
2026年6月AI圈六大技术信号:从美团开源多模态到Anthropic千亿营收
人工智能
米小虾7 分钟前
2026智博会闭幕:1.2万亿产业、具身智能爆发、AI转折之年已至
人工智能
Wenzar_11 分钟前
VITS+Whisper微调:低延迟TTS实战
java·人工智能·whisper
Rain50917 分钟前
mini-cc 终端 UI:用 React 写 CLI 是什么体验
前端·人工智能·react.js·ui·架构·前端框架·ai编程
创可贴治愈心灵22 分钟前
AI浪潮下C#就业前景剖析:深耕C#为主,按需选修Java与Python
java·人工智能·c#
子非鱼@Itfuture22 分钟前
端侧AI(On-Device AI / Edge AI)|边缘 AI|云端 AI 探索报告
人工智能·ai·agi·端侧ai
愚公搬代码30 分钟前
【愚公系列】《移动端AI应用开发》014-DeepSeek API开发与集成(处理多轮对话与动态请求)
人工智能·中间件·架构