你以为大模型在"思考"？它只是在猜下一个词

大模型到底是个啥？

你肯定听过这些词------大模型、LLM、参数量、Token、上下文窗口。

每个字都认识，连在一起就不知道在说什么。

这篇就是帮你把这些名词翻译成人话的。不搬公式，不讲论文，就聊一件事：大模型到底是个什么东西，它能干什么，不能干什么。

先回答最根本的问题：大模型是什么？

一句话：大模型就是一个读了超级多书的程序，你问它问题，它根据"读过的东西"猜一个最合理的回答。

注意，是"猜"，不是"想"。

它不会思考，没有理解力，也不知道自己说的是对是错。它做的事情，本质上是：根据你给的前文，预测下一个最可能出现的词。然后基于这个词，再预测下一个。一个词一个词地往外蹦，直到蹦出一个完整的回答。

就这么简单。

你可能会说：就这？这也太简陋了吧？

确实是这么简陋的原理。但当你把这个"预测下一个词"的事情，用天文数字的文本来训练，用海量的参数来调整，效果就变得非常惊人。它看起来像是在"理解"你、在"思考"，但其实它只是在做概率预测------只不过预测得太准了，准到让人以为它真的懂了。

参数量：大模型的"脑容量"

聊大模型，第一个绕不开的词就是"参数量"。你会看到各种新闻说"某某模型 7B 参数""某某模型 175B 参数"。

B 是什么？B 是 Billion，十亿。7B 就是 70 亿参数，175B 就是 1750 亿参数。

那参数到底是个啥？

你把它想象成一个超级大的调音台，上面有几百万、几十亿个旋钮。每个旋钮控制一个微小的权重，决定模型在预测下一个词的时候，该更偏向哪个方向。

训练的过程，就是不断调整这些旋钮------看了大量的文本后，模型慢慢知道"苹果"后面跟"手机"比跟"袜子"更合理，"今天天气"后面跟"不错"比跟"恐龙"更常见。这些"偏好"全部编码在那些旋钮的数值里。

所以参数量越大，意味着旋钮越多，模型能记住的"模式"就越复杂、越细致。

但注意，参数量大不等于在所有场景都更强。训练数据的质量、训练方法的好坏，同样重要。在某个垂直领域，一个经过针对性训练的 7B 模型，可以比通用 70B 模型表现得更好------因为小而精比大而泛更有优势。但在通用能力上，参数量的优势是实打实的，别指望 7B 能全面碾压 70B。

一句话总结：参数量就是大模型的"脑容量"，越大能记住的模式越多，通用能力越强，但在特定领域小模型也可以很能打。

Token：大模型的"最小阅读单位"

你跟大模型聊天的时候，它会告诉你"本次对话消耗了 xxx Token"。这个 Token 是什么？

简单说，Token 就是模型处理文本的最小单位。

你可以把它理解成"词"，但不完全是。不同模型的"切法"不一样------中文优化较好的模型（如 Qwen、ChatGLM），常见词通常就是一个 Token；而 GPT 系列用的分词器对中文没那么友好，"模型"这种常见词可能被切成"模"和"型"两个 Token。甚至标点符号也会占 Token。

为什么要搞这么复杂？因为不同语言的"词"长度差异太大了。英文一个词平均 5 个字母，中文一个字就是一个基本单位。如果统一按"词"来切，模型处理起来会很混乱。所以 Token 是一种折中方案------把文本切成模型能统一处理的小块。

几个有用的直觉（基于各模型官方Tokenizer的实际测试经验，非精确值）：

中文：1 个汉字大约 1-2 个 Token（GPT 系列偏多，约 1.5-2；国产模型偏少，约 0.6-1），1000 个汉字大概消耗 600-2000 Token
英文：1 个单词大约 1-1.5 个 Token，整体比中文省 Token
代码：特别费 Token，因为符号多、缩进多

为什么你要关心 Token？因为大模型是按 Token 计费的。你发的 Prompt 越 Token 多，花的钱越多；模型回复的 Token 越多，花的钱也越多。同样一个问题，啰嗦地问和精炼地问，成本可能差好几倍。

一句话总结：Token 是大模型的"计价单位"，也是它处理文本的最小颗粒。

上下文窗口：大模型的"短期记忆"

这是最容易让人踩坑的一个概念。

你跟大模型聊着聊着，突然发现它"忘了"你前面说过的话。不是它故意的，是它的上下文窗口满了。

上下文窗口，就是模型一次性能"看到"的文本长度上限。 你可以把它想象成一个固定大小的窗口------文本是一卷很长的纸带，模型只能看到窗口里的内容，窗户外面的，它看不到。

比如一个模型的上下文窗口是 8K Token，那意味着：你的提问 + 历史对话 + 模型的回答，加在一起不能超过 8K Token。超出的部分，模型就"看不见"了。

所以你遇到"模型忘事"的情况，大概率不是因为模型傻，是因为对话太长，前面的内容被挤出了窗口。

不同模型的窗口大小差别很大（截至 2026 年 5 月）：

早期模型：4K-8K Token
主流模型：32K-128K Token
最新模型：200K 甚至更长（如 Google Gemini 系列支持 100 万+ Token）

窗口越大，模型能"记住"的上下文就越多。但大窗口也有代价------处理成本更高，推理速度更慢。

这也是为什么 RAG（检索增强生成）这么火------与其把一整本书塞进窗口，不如先找到相关段落，只把有用的部分喂给模型。这个我们后面专门讲。

一句话总结：上下文窗口是模型的"短期记忆容量"，超出的内容它就看不见了。

大模型能干什么，不能干什么？

搞清楚上面几个概念后，你就能理解大模型的能力边界了。

它能做好的事

文本生成：写文章、写邮件、写代码，这是它的看家本领
文本理解：总结、分类、提取关键信息，做得相当不错
翻译和改写：语言之间的转换、风格调整，效果很好
知识问答：在训练数据覆盖的范围内，回答质量很高
代码辅助：写代码、找 Bug、解释代码，已经成了开发者的日常工具

它做不好的事

精确计算：它不是计算器，复杂的数学运算经常出错（不过现在很多模型支持调用计算器工具来弥补）
事实核查：它可能非常自信地给出错误答案（这就是"幻觉"）
实时信息：训练数据截止之后发生的事，它不知道
长逻辑链：需要多步严格推理的问题，中间一步错就全错了
真正的理解：它不"理解"你说了什么，它只是预测最可能的回应

最重要的一点

大模型最大的坑不是它不能做什么，而是它在做错的时候看起来跟做对的时候一模一样。

它看起来总是一副自信满满的样子，即使是在胡说八道。你问它一个你不知道答案的问题，你很难判断它的回答到底靠不靠谱。

所以用大模型的核心原则是：它是一个需要你来判断对错的助手，不是一个可以盲信的权威。

小结

概念	一句话
大模型	读了很多书的程序，根据前文预测下一个词
参数量	脑容量，越大通用能力越强，但特定领域小模型也能打
Token	模型处理文本的最小单位，也是计价单位
上下文窗口	短期记忆容量，超出的内容模型看不见

常见误区

误区一："大模型是在思考"

不是。大模型做的事情是"预测下一个最可能出现的词"，不是在推理、不是在思考。它表现得像在思考，是因为训练数据太海量、参数太多，预测得足够准确。但本质上，它每次输出都是概率计算的结果。

误区二："参数量越大就一定越好"

不一定。参数量决定了模型的容量上限，但能不能发挥出来取决于训练数据的质量和训练方法。行业共识是：同一家族内，参数量越大通用能力越强；但跨家族比较时，小模型经过针对性优化，在特定任务上可以超过大模型。

误区三："上下文窗口 = 长期记忆"

上下文窗口是单次对话的短期记忆，关掉对话框就没了。它跟训练数据是两回事------训练数据是模型"一生"读过的东西，已经融进了参数里；上下文窗口是模型"现在"能看到的东西，对话结束就消失。

概念速查卡片

术语	英文	大白话
大模型	LLM (Large Language Model)	读了很多书的程序，靠预测下一个词来回答问题
参数量	Parameters	模型的"脑容量"，单位 B = 十亿
Token	Token	模型处理文本的最小单位，也是计价单位
上下文窗口	Context Window	模型一次性能看到的文本长度上限

下一篇我们聊：AI 怎么"说话"的------Prompt、System Prompt、Temperature、Top-P 这些词到底啥意思，调参数到底在调什么。

这是「老开发的 AI 笔记」专栏的第 1 篇，用开发者听得懂的话讲 AI。觉得有用的话，点赞收藏走一波，后续持续更新。