大模型核心概念解读

大模型核心概念通俗解读:从词向量到工具调用


一、名词解释

在正式开始之前,先快速认识几个核心概念:

概念 一句话解释
词向量 每个词被翻译成一串数字(如4096个数字),语义相近的词,数字串也相近
场景向量 把整个句子或段落压缩成一个数字串,代表"当前语境"的全貌
视觉编码器 把图片切成小块,每块也翻译成数字串,让模型能"看懂"图像
LM Head 一个映射层,把场景向量翻译成"下一个词的概率"
工具调用 模型发现自己搞不定时,主动调用计算器、搜索引擎等外部工具来帮忙

二、目录提纲

  1. 词向量:给每个词发一张"身份证"
  2. 场景向量:从"单个词"到"完整语境"
  3. 视觉编码器:让模型"看见"世界
  4. LLM如何工作:从场景向量到下一个词
  5. LLM的致命短板:为什么算不了大数乘法
  6. 工具调用:模型如何"求助"外部工具
  7. 总结:从"理解"到"行动"的进化

三、正文

1. 词向量:给每个词发一张"身份证"

大模型无法直接理解文字,它只认识数字。所以第一步,模型把每个词(Token)映射成一个高维向量------比如4096个数字。

  • "猫" → [0.12, -0.45, 0.78, ..., 0.33](4096个数字)
  • "狗" → [0.15, -0.42, 0.80, ..., 0.30](与"猫"很接近)
  • "微积分" → [-0.90, 0.67, -0.12, ..., 0.55](与"猫"距离很远)

这就是词向量。 语义相近的词,它们的向量在空间中彼此靠近;语义无关的词,彼此远离。模型的所有理解能力,都建立在这个"语义地图"之上。

换个角度: 通过大量数据训练后的词向量,是基于训练的数据,定义了每个词的向量维度数值,进而达成哪些词近,哪些词远,两个词的远近,再结合到场景中,可能变得更近或者更远。

注意: 各家词向量的维度是不一样的,千问是4096维度,就算维度一样,基于训练数据和模型的差异,训练出来的词的向量直,也是有出入的,目前没有统一的词向量定义方法。词向量的值,也只是大模型数亿参数的另一种参数类型,通过调整词向量,来达成词与词之间的距离。

2. 场景向量:从"单个词"到"完整语境"

词向量只能表示单个词,但"猫坐在垫子上"和"垫子坐在猫上"完全是两码事。模型需要理解词与词之间的关系。

这时,Transformer的自注意力机制登场了。它让每个词都能"看到"句子中的所有其他词:

  • "猫"看到"坐"、"在"、"垫子"、"上",知道自己是"坐"的主体
  • "垫子"看到"猫"、"坐",知道自己是"被坐"的对象

经过多层这样的交互,模型把所有词的信息融合成一个场景向量。这个向量编码了"谁在什么场景下做了什么"这个完整信息。

场景向量就是当前语境的"全景快照"。 模型后续的所有生成,都基于这个快照。

3. 视觉编码器:让模型"看见"世界

以上都是纯文本的世界。要让模型"看图说话",就需要视觉编码器

视觉编码器的工作分为三步:

第一步:切图。 把一张图片切成许多小块(Patches)。比如一张224×224的图片,切成16×16的小块,得到196个小块。

第二步:编码。 每个小块被映射成一个向量。这样,一张图片就变成了一个向量序列------和文本的向量序列格式完全一致。这个向量和词向量不是同样的概念和维数,所以需要关联到词向量空间。

第三步:对齐。 这些图像向量通过一个叫Connector(连接器)的模块,被"翻译"成LLM能理解的语义空间。翻译后的向量与文本向量在同一个空间中,语义相近的图像和文本彼此靠近。

最终,模型可以在同一个语义空间中处理图像和文本。 你问"这张图里有什么?",模型会把图像中的"红色区域"向量与文本中的"红色"向量进行匹配,回答"有一朵红色的花"。

注意: 所谓的Connector,是通过大量的图像和一些对图像描述的文字语言,通过这些训练,能够把图的向量映射到对应文字在词向量上的位置,进而用于推理。

一张图首先把视觉编码器转换为图像的向量数据,不同于词向量空间,然后通过连接器映射到词向量空间,进而进行文字结果的推导,反向工程(文字生成图)也是如此。

4. LLM如何工作:从场景向量到下一个词

现在,模型有了场景向量(来自文本或图像),接下来如何生成回答?

第一步:场景向量 → 得分向量。 模型通过一个叫LM Head的线性层,把场景向量映射到词表空间。每个词得到一个"得分"(Logit)。

第二步:得分向量 → 概率分布。 通过Softmax函数,把得分转换为概率分布。得分高的词,概率也高。

第三步:采样。 模型根据概率分布选择下一个词。最简单的策略是选概率最高的那个。

这个过程不断重复: 每生成一个词,模型就把这个词加入输入,重新计算场景向量,再预测下一个词。这就是自回归生成

5. LLM的致命短板:为什么算不了大数乘法

到这里,你可能会觉得LLM无所不能。但有一个经典问题暴露了它的致命短板:

请计算:1234533257 × 8753674433

如果你让LLM直接回答,它大概率会给出一个错误答案。为什么?

原因在于:LLM的本质是"模式匹配",而不是"精确计算"。

  • 分词问题 :数字"1234533257"可能被分词器切成 ["12", "34", "53", "32", "57"] 这样的Token序列。模型看到的不是一个大数,而是一串符号。
  • 缺乏进位机制:人类做乘法需要从低位到高位逐位计算、进位。但LLM是"从左到右"逐词生成的,它没有内置的"进位寄存器"。
  • 训练数据稀疏:训练数据中很少出现这么长的乘法例子,模型没有学会这种模式。

所以,没有外部工具,LLM根本无法精确计算大数乘法。 它只能根据模式猜测一个"看起来合理"的数字,但大概率是错的。

6. 工具调用:模型如何"求助"外部工具

既然LLM有短板,那怎么办?答案是:让它学会调用工具。

工具调用(Tool Calling / Function Calling) 是2024-2026年大模型最重要的能力之一。它让模型在发现自己搞不定时,主动请求外部工具帮忙。

工作流程如下:

  1. 模型判断:当用户问"1234533257 × 8753674433 = ?"时,模型识别出这是一个需要精确计算的问题,自己搞不定。

  2. 生成调用请求 :模型不是直接输出答案,而是输出一个特殊格式的调用请求,比如:

    复制代码
    <function_call> calculate("1234533257 * 8753674433") </function_call>
  3. 系统执行:外部系统(不是模型本身)接收到这个请求,调用计算器或代码解释器进行精确计算。

  4. 返回结果 :计算器返回结果 10807644227737281281

  5. 模型整合:模型把结果整合到回答中,输出:"结果是 10807644227737281281。"

工具调用的核心价值: 它把LLM从"什么都要自己干"变成了"知道自己什么干不了,然后找人帮忙"。这大大扩展了模型的能力边界。

常见的工具类型:

工具类型 用途 示例
计算器 精确数学运算 大数乘法、微积分
搜索引擎 获取实时信息 今天天气、最新新闻
代码解释器 执行代码 数据分析、图表绘制
数据库查询 结构化数据检索 查订单、查库存
图像生成器 生成图片 画一幅"猫在月球上"

四、总结:从"理解"到"行动"的进化

回顾整篇文章,我们可以看到大模型能力的三个层次:

层次 能力 核心组件
第一层:理解 把文字和图像翻译成向量 词向量、视觉编码器
第二层:生成 基于场景向量逐词预测 Transformer、LM Head
第三层:行动 识别自身局限,调用外部工具 工具调用框架

而这一切的起点,就是那个魔幻的、高纬度的词向量------一串数字,开启了一个全新的智能时代。

下一篇再来阐述COLA_DLM、JEPA和LLM的关系

相关推荐
最贪吃的虎6 小时前
DeerFlow 记忆系统:让 AI Agent 真正“认识“你
人工智能
lookaroundd6 小时前
llm-compressor 普通量化调用链分析
python·算法
prog_61036 小时前
【笔记】用cursor手搓cursor(六)deepseek v4
人工智能·笔记·agent·deepseek·claude code
Loo国昌6 小时前
从 Agent 编排到 Skill Runtime:企业 AI 工程化的下一层抽象
大数据·人工智能·后端·python·自然语言处理
凌波粒6 小时前
深度学习入门(鱼书)第2章笔记——感知机
人工智能·笔记·深度学习
南屹川6 小时前
【Python进阶】Python元类编程深度解析
人工智能
小羊在睡觉6 小时前
力扣239. 滑动窗口最大值
数据结构·后端·算法·leetcode·go
人工智能培训7 小时前
中国人工智能培训网—AI系列录播课
大数据·人工智能·机器学习·计算机视觉·知识图谱
兰令水7 小时前
topcode【随机算法题】【2026.5.20打卡-java版本】
java·开发语言·算法