你以为大模型在"思考"?它只是在猜下一个词

大模型到底是个啥?

你肯定听过这些词------大模型、LLM、参数量、Token、上下文窗口。

每个字都认识,连在一起就不知道在说什么。

这篇就是帮你把这些名词翻译成人话的。不搬公式,不讲论文,就聊一件事:大模型到底是个什么东西,它能干什么,不能干什么。

先回答最根本的问题:大模型是什么?

一句话:大模型就是一个读了超级多书的程序,你问它问题,它根据"读过的东西"猜一个最合理的回答。

注意,是"猜",不是"想"。

它不会思考,没有理解力,也不知道自己说的是对是错。它做的事情,本质上是:根据你给的前文,预测下一个最可能出现的词。然后基于这个词,再预测下一个。一个词一个词地往外蹦,直到蹦出一个完整的回答。

就这么简单。

你可能会说:就这?这也太简陋了吧?

确实是这么简陋的原理。但当你把这个"预测下一个词"的事情,用天文数字的文本来训练,用海量的参数来调整,效果就变得非常惊人。它看起来像是在"理解"你、在"思考",但其实它只是在做概率预测------只不过预测得太准了,准到让人以为它真的懂了。

参数量:大模型的"脑容量"

聊大模型,第一个绕不开的词就是"参数量"。你会看到各种新闻说"某某模型 7B 参数""某某模型 175B 参数"。

B 是什么?B 是 Billion,十亿。7B 就是 70 亿参数,175B 就是 1750 亿参数。

那参数到底是个啥?

你把它想象成一个超级大的调音台,上面有几百万、几十亿个旋钮。每个旋钮控制一个微小的权重,决定模型在预测下一个词的时候,该更偏向哪个方向。

训练的过程,就是不断调整这些旋钮------看了大量的文本后,模型慢慢知道"苹果"后面跟"手机"比跟"袜子"更合理,"今天天气"后面跟"不错"比跟"恐龙"更常见。这些"偏好"全部编码在那些旋钮的数值里。

所以参数量越大,意味着旋钮越多,模型能记住的"模式"就越复杂、越细致。

但注意,参数量大不等于在所有场景都更强。训练数据的质量、训练方法的好坏,同样重要。在某个垂直领域,一个经过针对性训练的 7B 模型,可以比通用 70B 模型表现得更好------因为小而精比大而泛更有优势。但在通用能力上,参数量的优势是实打实的,别指望 7B 能全面碾压 70B。

一句话总结:参数量就是大模型的"脑容量",越大能记住的模式越多,通用能力越强,但在特定领域小模型也可以很能打。

Token:大模型的"最小阅读单位"

你跟大模型聊天的时候,它会告诉你"本次对话消耗了 xxx Token"。这个 Token 是什么?

简单说,Token 就是模型处理文本的最小单位。

你可以把它理解成"词",但不完全是。不同模型的"切法"不一样------中文优化较好的模型(如 Qwen、ChatGLM),常见词通常就是一个 Token;而 GPT 系列用的分词器对中文没那么友好,"模型"这种常见词可能被切成"模"和"型"两个 Token。甚至标点符号也会占 Token。

为什么要搞这么复杂?因为不同语言的"词"长度差异太大了。英文一个词平均 5 个字母,中文一个字就是一个基本单位。如果统一按"词"来切,模型处理起来会很混乱。所以 Token 是一种折中方案------把文本切成模型能统一处理的小块。

几个有用的直觉(基于各模型官方Tokenizer的实际测试经验,非精确值):

  • 中文:1 个汉字大约 1-2 个 Token(GPT 系列偏多,约 1.5-2;国产模型偏少,约 0.6-1),1000 个汉字大概消耗 600-2000 Token
  • 英文:1 个单词大约 1-1.5 个 Token,整体比中文省 Token
  • 代码:特别费 Token,因为符号多、缩进多

为什么你要关心 Token?因为大模型是按 Token 计费的。你发的 Prompt 越 Token 多,花的钱越多;模型回复的 Token 越多,花的钱也越多。同样一个问题,啰嗦地问和精炼地问,成本可能差好几倍。

一句话总结:Token 是大模型的"计价单位",也是它处理文本的最小颗粒。

上下文窗口:大模型的"短期记忆"

这是最容易让人踩坑的一个概念。

你跟大模型聊着聊着,突然发现它"忘了"你前面说过的话。不是它故意的,是它的上下文窗口满了。

上下文窗口,就是模型一次性能"看到"的文本长度上限。 你可以把它想象成一个固定大小的窗口------文本是一卷很长的纸带,模型只能看到窗口里的内容,窗户外面的,它看不到。

比如一个模型的上下文窗口是 8K Token,那意味着:你的提问 + 历史对话 + 模型的回答,加在一起不能超过 8K Token。超出的部分,模型就"看不见"了。

所以你遇到"模型忘事"的情况,大概率不是因为模型傻,是因为对话太长,前面的内容被挤出了窗口。

不同模型的窗口大小差别很大(截至 2026 年 5 月):

  • 早期模型:4K-8K Token
  • 主流模型:32K-128K Token
  • 最新模型:200K 甚至更长(如 Google Gemini 系列支持 100 万+ Token)

窗口越大,模型能"记住"的上下文就越多。但大窗口也有代价------处理成本更高,推理速度更慢。

这也是为什么 RAG(检索增强生成)这么火------与其把一整本书塞进窗口,不如先找到相关段落,只把有用的部分喂给模型。这个我们后面专门讲。

一句话总结:上下文窗口是模型的"短期记忆容量",超出的内容它就看不见了。

大模型能干什么,不能干什么?

搞清楚上面几个概念后,你就能理解大模型的能力边界了。

它能做好的事

  • 文本生成:写文章、写邮件、写代码,这是它的看家本领
  • 文本理解:总结、分类、提取关键信息,做得相当不错
  • 翻译和改写:语言之间的转换、风格调整,效果很好
  • 知识问答:在训练数据覆盖的范围内,回答质量很高
  • 代码辅助:写代码、找 Bug、解释代码,已经成了开发者的日常工具

它做不好的事

  • 精确计算:它不是计算器,复杂的数学运算经常出错(不过现在很多模型支持调用计算器工具来弥补)
  • 事实核查:它可能非常自信地给出错误答案(这就是"幻觉")
  • 实时信息:训练数据截止之后发生的事,它不知道
  • 长逻辑链:需要多步严格推理的问题,中间一步错就全错了
  • 真正的理解:它不"理解"你说了什么,它只是预测最可能的回应

最重要的一点

大模型最大的坑不是它不能做什么,而是它在做错的时候看起来跟做对的时候一模一样

它看起来总是一副自信满满的样子,即使是在胡说八道。你问它一个你不知道答案的问题,你很难判断它的回答到底靠不靠谱。

所以用大模型的核心原则是:它是一个需要你来判断对错的助手,不是一个可以盲信的权威。

小结

概念 一句话
大模型 读了很多书的程序,根据前文预测下一个词
参数量 脑容量,越大通用能力越强,但特定领域小模型也能打
Token 模型处理文本的最小单位,也是计价单位
上下文窗口 短期记忆容量,超出的内容模型看不见

常见误区

误区一:"大模型是在思考"

不是。大模型做的事情是"预测下一个最可能出现的词",不是在推理、不是在思考。它表现得像在思考,是因为训练数据太海量、参数太多,预测得足够准确。但本质上,它每次输出都是概率计算的结果。

误区二:"参数量越大就一定越好"

不一定。参数量决定了模型的容量上限,但能不能发挥出来取决于训练数据的质量和训练方法。行业共识是:同一家族内,参数量越大通用能力越强;但跨家族比较时,小模型经过针对性优化,在特定任务上可以超过大模型。

误区三:"上下文窗口 = 长期记忆"

上下文窗口是单次对话的短期记忆,关掉对话框就没了。它跟训练数据是两回事------训练数据是模型"一生"读过的东西,已经融进了参数里;上下文窗口是模型"现在"能看到的东西,对话结束就消失。

概念速查卡片

术语 英文 大白话
大模型 LLM (Large Language Model) 读了很多书的程序,靠预测下一个词来回答问题
参数量 Parameters 模型的"脑容量",单位 B = 十亿
Token Token 模型处理文本的最小单位,也是计价单位
上下文窗口 Context Window 模型一次性能看到的文本长度上限

下一篇我们聊:AI 怎么"说话"的------Prompt、System Prompt、Temperature、Top-P 这些词到底啥意思,调参数到底在调什么。

这是「老开发的 AI 笔记」专栏的第 1 篇,用开发者听得懂的话讲 AI。觉得有用的话,点赞收藏走一波,后续持续更新。

相关推荐
ZengLiangYi2 小时前
sql.js WASM 实战:浏览器里跑 SQLite
aigc·ai编程
先吃饱再说2 小时前
我的第一次「Claude Code」实战:用 AI 敲出一个外卖 App 落地页
ai编程
常威正在打来福2 小时前
frontend-design入门指南:OpenClaw/Claude Code/Codex 三平台安装教程
人工智能·aigc·ai编程
wangruofeng3 小时前
GitHub AI 月榜解读:8 大趋势告诉你该关注什么
github·ai编程
爱吃的小肥羊3 小时前
又上新闻!OpenAI 称推翻困扰数学界近 80 年的「平面单位距离猜想」
aigc·openai·ai编程
视觉&物联智能3 小时前
【杂谈】-企业人工智能超越实验:安全拓展的实践路径
人工智能·安全·aigc·agent·agi
码途漫谈3 小时前
让 AI 编程不断线:9Router 的本地模型路由与 Token 节流术
人工智能·ai·开源·ai编程
人月神话-Lee4 小时前
【图像处理】饱和度——颜色的浓淡与灰度化
图像处理·人工智能·ios·ai编程·swift
孟健4 小时前
光会写提示词,用不好 AI Agent
ai编程