大语言模型(理论篇)

1、文本是如何传入大模型的

**人类输入的是自然语言,模型真正处理的是数字。**文本进入大模型通常经历以下步骤:

这条链路里最重要的认识是:大模型并不是"直接读汉字或英文单词",而是先把文本转换成可计算的数字表示,再进行预测和生成。

2、Token(词元)基础

Token 是大语言模型处理文本的基本单位。它不一定等于一个完整单词,也不一定等于一个完整汉字,而是模型词表定义下的切分单元。

常见理解要点:

  • 英文里一个单词可能被拆成多个 Token。

  • 中文里一个字/词也可能被拆成多个 Token。

  • 模型的上下文长度、计费方式、响应速度,通常都与 Token 数量直接相关。

例如,用户输入一段很长的文档时,模型首先关心的不是"字数多少",而是"总共有多少 Token"。因此,Token 是连接"文本输入""模型计算""上下文长度"这三者的核心概念。

理解 Token 最重要的是以下三件事:

  1. Token 不等于字数,也不等于词数。 同样一句话,在不同模型里切分结果可能不同,所以不能简单按"多少字"来估算成本。

  2. 输入会消耗 Token,输出也会消耗 Token。 你给模型的背景资料越长,要求它输出越长,整体成本就越高。

  3. 历史对话也占 Token。 多轮聊天并不是"只算这一次提问",而是常常连同上下文一起送进模型,因此越聊越长,成本和延迟都会上升。

Token 的直观示例

Token 的切分方式取决于模型词表,下面只是帮助理解的近似示例:

输入内容 可能的 Token 切分方式 说明
Hello world Hello / world 英文常按词或子词切分
unbelievable un / believe / able 一个长单词可能被拆成多个 Token
人工智能 人工 / 智能 或 人 / 工 / 智 / 能 中文也可能按词或字拆分
CAIE Level 1 CA / IE / Level / 1 英文、缩写、数字混合时更容易被拆开

要点不是记住某个具体切法,而是明白:模型看到的不是自然语言原貌,而是一串 Token 序列。

Token 为什么会影响成本和速度

在实际使用 AI 工具时,Token 直接影响三个结果:

影响维度 Token 越多会怎样 对业务使用者意味着什么
成本 计费通常更高 长材料、大段上下文、多轮对话更贵
速度 模型处理更慢 响应延迟增加,批量任务更明显
长度限制 更容易触达上下文窗口上限 早期内容可能被压缩、截断或遗忘

很多平台的计费方式都可以概括为:

总费用 ≈ 输入 Token 费用 + 输出 Token 费用

也就是说,以下几种操作都会明显增加成本:

  • 把整篇长文原样粘进对话框。

  • 每次都重复发送同一段背景介绍。

  • 要求模型一次输出多版方案、超长报告或大段逐字改写。

  • 在一个很长的聊天里持续追问,而不做总结或重开新对话。

3、大语言模型如何"读懂"上下文(Transformer)

当前主流大语言模型大多基于 Transformer 架构。掌握两点:

  1. 模型不会孤立地理解某个词,而是会结合前后文一起判断含义。

  2. 模型能够关注句子中不同位置之间的关系,因此能根据上下文生成更合理的回答。

例如,"银行"这个词出现在"去银行办贷款"和"河流的银行"这两个句子里,表示的含义不同。

正确含义取决于周围词语。

Transformer 的价值就在于帮助模型综合上下文来判断"当前这个词到底是什么意思"。

如果再多理解一步,可以把 Transformer 的工作方式概括为三层意思:

  • 先把文字变成向量(Embedding)。 模型先把 Token 转成可计算的数字表示。

  • 再看位置关系(位置编码)。 模型不仅看"有哪些词",还要知道"这些词出现在哪个位置"。

  • 最后动态分配注意力(Self Attention)。 模型会根据当前词与上下文其他词的关系,决定该重点参考哪里。

其中最关键的机制是注意力机制(Attention)。它让模型在处理当前位置时,不必只机械地按顺序往后读,而是能"回看"上下文中与当前内容最相关的部分。正因为如此,大语言模型才会比早期序列模型更擅长摘要、问答、改写和复杂生成。

Transformer 为什么适合长文本理解

Transformer 的优势在于:它能在同一轮计算中同时考虑多个位置之间的关系,而不是只能一步接一步地传递信息。例如,当用户要求模型:

  • 综合一段材料中的多处信息,

  • 判断前后是否一致,

  • 根据前文设定继续往后写,

Transformer 通常比早期 RNN 类模型更有优势。

相关推荐
小二·1 小时前
AI 代码审查 VSCode 插件实战
ide·人工智能·vscode
未来之窗软件服务1 小时前
精选之变,顺势而生(2026 年高考语文作文)
大数据·人工智能·高考·仙盟创梦ide·东方仙盟
意图共鸣1 小时前
意图共鸣科技发布《AI记忆链商业化白皮书3.0》:从存算解耦到“第二大脑”的技术演进
人工智能·科技·架构
仰望星空的代码1 小时前
科技是市场的唯一
大数据·人工智能·科技·财经·股市行情
芯盾时代1 小时前
企业建立安全防线治理失控的Agent
大数据·人工智能·安全
AI数据皮皮侠1 小时前
全国高考报名、录取数据(1977-2026)
大数据·数据库·人工智能·python·机器学习·高考
东方佑1 小时前
条件随机、自指与分形:论现实世界的递归生成逻辑
人工智能
老H科研技术1 小时前
第 04 篇:MCP中SDK 对比与选型 —— 选对工具,事半功倍
人工智能·mcp
DS随心转插件2 小时前
AI导出鸭:DeepSeek 转 Word 效果实测与案例展示
人工智能·ai·word·豆包·deepseek·ai导出鸭