你每天都在用 AI。问它问题,让它写代码,让它帮你翻译文章。但你有没有想过:它到底在"做"什么?
大多数人以为 AI 在"思考"------它理解了你的问题,查了查脑子里的知识,最后给出一个"它认为对的答案"。
错了。
大模型真正做的事,比你想象的简单得多:
猜下一个词。
不是"理解",不是"思考",不是"推理"------就是给定前面的文字,预测下一个最可能出现的词。ChatGPT、Claude、DeepSeek,所有大模型的底层任务都是同一个。
你用微信给人发消息,打出四个字:
"明天有空"
输入法立刻弹出几个选项:吗、吗?、一起吃饭、出来坐坐。你选了"吗",接着打出"出来",输入法又弹出:聚、聊聊、吃个饭。
这就是下一个词预测。你手机里那个几十 MB 的小模型,做的事情和 ChatGPT 本质上完全一样。
区别只在规模:
-
• 参考的信息:输入法看最近几个字,大模型看整段上下文(几千到几十万字)
-
• 模型大小:几十 MB vs. 几十到几百 GB
-
• 循环次数:1 次 vs. 几百到几千次
输入法猜下一两个字,大模型猜几千个字------是同一个动作推到极致。

一个具体的例子
来看看这个过程是怎么运作的。模拟大模型处理一个请求。
你的输入:
"请把这句话翻译成法语:The cat is sleeping on the red couch."
第一步:文字变成数字
模型不认识英文字母。它先把这句话拆成 Token(词元),每个 Token 对应一个数字 ID。
"The" → 42,"cat" → 1089,"is" → 58,"sleeping" → 7234......
所以模型看到的不是文字,而是一串数字:[42, 1089, 58, 7234, 22, 5, 8, 42, 337, 15, 5, 2217]
第二步:穿过神经网络
这串数字进入一个巨大的多层神经网络。每一层都在做同一件事:根据上下文,给每个可能的下一个词打分。
第一层看到 "The cat is sleeping",打出一堆可能性分数。
第二层看到更多上下文,调整。
第三百层看完了整句话,把每个可能的法语词都排好序。它可能算出来:Le 35%、Un 18%、chat 12%、Ce 8%......
第三步:按概率转盘选词
然后,模型按照概率分布转动"转盘"。不是选概率最高的词,而是按概率随机抽取------概率高的词格子大,但也有机会转到概率低的词。
所以你问同一个问题两次,答案往往不一样。这不是 AI"想出了不同的答案",而是转盘每次转到的地方略有不同。
第四步:拼上去,循环
选出一个词(比如"Le"),拼到句子后面,整个过程重新开始------把"Le"作为新的输入,重新算概率,重新转盘,选下一个词(比如"chat"),继续......
一直重复,直到模型决定"说完了"。

为什么能写文章、做翻译、解数学题?
你可能会说:好吧,就算它是在"猜",但它能写文章、解数学题,这总得是"真正的能力"吧?
不,这些都是"猜下一个词"的副产品。
翻译
你输入:
"翻译成法语:The cat is sleeping on the red couch."
模型依次预测"Le"、"chat"、"dort"、"sur"、"le"、"canapé"、"rouge"......
它不是"会法语"。它是在训练数据里见过海量法语文章------法国小说、新闻、论文、网页,看到"on the red couch",就知道法语里大概率说"sur le canapé rouge"。这个规律是记住的,不是理解的。
数学
你输入:
"小明有 12 个苹果,给了小红 5 个,又买了 8 个,小明现在有多少个苹果?"
模型看到"12"、"5"、"8",在训练数据里见过太多这类题目:数字换一换,句式换一换,但结构几乎一样。它预测出"1"、"9"。
不是它在计算------是见过足够多次类似题目,预测得准。
但这里有个陷阱。如果题目是训练数据里没见过的类型,或者数字很大,模型就会胡说八道。不是因为它粗心,而是它的本质是预测下一个词,不是做算术。
写代码
你输入:
bash
def calculate_factorial(n):
模型预测下一个词是 if,再下一个是 n,再下一个是 <,再下一个是 2......
它不是"懂编程"。它对编程语言的语法模式极其熟悉------在 GitHub 上看过几万亿行代码。但它不保证代码一定正确、一定高效、一定安全。它只是在猜最可能的那串代码。
为什么它有时候"看起来像在推理"?
你可能有过这个体验:你问 AI 一道复杂数学题,它一步一步写出来,最后得出正确答案,好像真的在思考。
这其实是另一个技巧在起作用:思维链提示(Chain-of-Thought)。
你在 prompt 里加一句"请一步一步思考",模型输出的内容里,会把推理过程也写出来。
但注意:它并不是真正在思考。它只是在预测"一个正在认真思考的人,接下来会写什么"。把推理过程写出来,恰恰是因为训练数据里包含大量解题步骤------教科书、例题、论坛讨论。模型学的就是这种"先写一步、再写一步、最终得出答案"的模式。
这让输出看起来像推理,而且往往能得到正确答案。但它和真正的推理有本质区别:
真正的推理是有因果链的:知道 A,推导出 B,因为 B 所以 C。
大模型是统计模式匹配:在见过的所有文字里,遇到这种输入,最常见的下一步是这种输出。
区别在于:如果遇到训练数据里没出现过的全新问题,真正的推理能应对,模型会胡说八道。
三个最常见的误解
误解一:AI 在理解我的问题。
不。它不认识你,不理解中文,也不理解英语。
你问它"为什么天是蓝的",它看到的是一串数字 [34, 89, 15, 203, 445, ...],然后根据这串数字,预测你接下来最想看到什么文字。
它给出一个好的回答,是因为在训练数据里见过这个问题被认真回答过很多次。它不是在理解问题然后给出答案,而是在预测"这类问题,高质量的回答通常长什么样"。
误解二:AI 有一个知识库可以查。
不。它没有图书馆,没有数据库,没有索引。
你可能会想象一个大模型像图书馆管理员,收到问题后,在海量书籍里翻找相关章节。这完全是错的。
它的"知识"全在参数里------不是存储的知识,而是训练出来的预测能力。几千亿个数字,是通过海量文本反复练习"猜下一个词"练出来的。
打个比方:一个看过几百万场比赛的围棋选手,下棋的时候并不是在回忆之前看过的某场比赛,而是在训练过程中形成了某种判断模式。这个模式存在于他下棋的直觉里,而不是某个记忆宫殿里。
误解三:它有时候在推理。
不。每一步都是同一个操作:算概率、选词、拼上去、继续算。
"推理"只是看起来像推理,本质还是概率游戏。它和真正的推理之间的区别,就像照着菜谱做饭和真正理解化学反应之间的区别------菜谱能做出好吃的菜,但如果食材变了、火候变了,照着菜谱就可能做出黑暗料理。

边界在哪里
知道大模型本质是"猜下一个词",不是否定它的价值,而是让你更聪明地使用它。
它擅长的:
-
• 模式清晰的写作任务(邮件、报告、格式化的文字)
-
• 见过大量类似例子的任务(常见语言的翻译、标准编程问题)
-
• 给你提供思路、框架、初稿
-
• 回答它训练数据里覆盖得很好的问题
它的局限:
-
• 全新问题、没有先例的问题(概率预测在这里失效)
-
• 需要精确计算的任务(尤其是大数运算)
-
• 需要最新信息的问题(它的知识有截止日期)
-
• 需要 100% 准确的事实性回答(它可能一本正经地胡说八道)
理解了它的边界,你就能用它做它擅长的事,而不是在它不擅长的地方和它较劲。
下一次你用它时,想想这个画面
现在你知道了大模型在做什么:
你的文字变成一串数字(Token),穿过几十层神经网络,被层层打分,概率最高的几个词进入转盘,随机选出一个,拼到原句后面,整个过程重复几百次,最终拼出你看到的一整段话。
它不知道自己在说什么。它只是在猜。
而"猜"得足够准,我们就叫它------智能。
文章首发于 「小小寰宇」
