大模型分享会讲稿：理解上下文，理解大模型

2026年07月03日公司内部分享会的内容，整理成讲稿分享给大家，分享一些基础概念。

开场

各位好，今天我们不聊那些花哨的应用，也不谈遥远的 AGI，我们只做一件事：把大模型这个"黑盒子"打开一条缝，让大家真正理解它到底是怎么工作的。

我希望大家听完这次分享后，能建立三个核心认知：第一，大模型的能力在训练完成后就固定了；第二，它本质上只做一件事------文字进，文字出（Text in, Text out）；第三，也是最重要的，我们的输入（也就是上下文）会极大地、决定性地影响它的输出。

理解了这三点，你就理解了为什么"提示词工程"如此重要，也理解了我们该如何与这个工具打交道。

第一部分：大模型是什么？结构 + 权重

我们现在说的大模型，基本都是基于深度学习的。你可以把一个大模型理解成由两样东西构成：结构和权重。

结构就好比一个人的骨架，决定了这个模型有多少层、每一层怎么连接、信息怎么流动。这套结构一旦设计好，在训练前就定下来了。

权重则是挂在这套骨架上的无数个数字参数。所谓"千亿参数大模型"，说的就是这里有上千亿个权重数字。

那这些权重是怎么来的？这就是"训练"要干的事。厂商会准备海量的语料、海量的问答对，然后不断地喂给模型：给它一个输入，看它输出什么，再拿输出和"标准答案"对比，如果错了，就微微调整那些权重数字，让它下次的输出更接近期望结果。

这个过程重复亿万次之后，所有的权重就被"调教"到了一个特定的分布状态。说白了，训练的本质，就是在调整这些权重数字的分布。而权重的分布，最终决定了"什么样的输入会产生什么样的输出"。

这里我要强调一个关键结论：训练一旦完成，这个模型就"石化"了。 它的所有知识、所有能力，全部凝固在这堆权重数字里，永远不会再变。它不会因为跟你聊了一下午就变聪明，也不会记住昨天你教它的东西。你今天用的模型，和明天用的同一版本模型，是一模一样的。

第二部分：它只做一件事------把数字变成数字

现在我们看看，当你输入一句话时，里面到底发生了什么。

大模型其实根本"看不懂"文字。它能处理的只有数字。所以你输入的每一句话，都会先被切成一个个小片段，这些片段有个专门的名字，叫 Token（词元）。

（注：你之前说的"转换成资源"，准确的说法是转换成 Token。这个词很重要，后面我们算"上下文大小"全靠它。）

每一个 Token 都会被换成一个数字编号。所以你的一整句话，进入模型时，其实就是一串数字。

模型拿到这串数字后，经过内部那堆权重的层层运算，最终吐出另一串数字。这串数字再被翻译回文字，就成了你看到的回答。

所以请大家记住这个最朴素的真相：

大模型的本质，就是一个"数字进，数字出"的函数。对我们用户来说，表现为"文字进，文字出"（Text in, Text out）。

它不联网、不查数据库、不会自己打开计算器、也不会主动去调用任何程序。它唯一会的，就是根据你给的这串数字，算出下一串数字。

（延伸说明：现在大家看到的 AI Agent、能调用工具、能搜索、能写代码执行------那些能力都是外面的程序 在做的。外部程序把模型输出的文字解析出来，替它去执行动作，再把结果当成新的文字喂回给模型。模型自己始终只是那个"文字进文字出"的核心。这个认知非常重要，它能帮你分清"模型的能力"和"产品的能力"。）

第三部分：为什么同样的问题，答案每次不一样？

这是今天最有意思的一个问题，也是很多人困惑的地方。

刚才说了，训练完的模型是固定的。那按理说，我输入一个 A，它应该永远输出同一个 B 才对，就像一个写死的函数一样。可为什么我问同一个问题，它每次回答都不太一样？

答案在于：大模型的推理是基于概率的。

模型算出下一个 Token 时，它给出的不是一个确定的答案，而是一张"概率表"。比如你问"今天天气真"，模型可能会算出：

"好" ------ 概率 60%
"不错" ------ 概率 25%
"糟糕" ------ 概率 10%
其他各种词 ------ 剩下的 5%

注意，这张概率表本身是完全确定的------同样的输入，模型每次算出的这张表都一模一样。这一点和它"石化"的特性完全不矛盾。

但是！最后到底选哪个词输出，是从这张表里按概率抽签决定的。这一抽签，就带来了随机性。

而你说的"温度（Temperature）"这个设置，控制的就是这个抽签的"随机程度"：

温度低（比如接近 0）：几乎永远只选概率最高的那个词。输出更保守、更确定、更可复现。适合做数学、代码、事实问答。
温度高：低概率的词也有机会被抽中。输出更发散、更有创意、也更"跳"。适合写诗、头脑风暴。

所以，模型是固定的（概率表是固定的），但抽签过程是随机的（选词是随机的）。这就是为什么同一个 A，你会得到略微不同的 B。这和传统深度学习里那种"输入确定就输出确定"的印象不一样，根源就在这个概率抽样的机制上。

第四部分：核心中的核心------上下文（Context）

好，前面都是铺垫，现在进入今天真正的重点：上下文 。

4.1 一个贴切的比喻：一个固定大小的 U 盘

我们跟大模型交流，最好的比喻，就是用一个 U 盘和它沟通。

这个 U 盘的大小是固定的（比如 8K、128K、200 万 Token 等等，不同模型不一样）。

你写给它的每一句话，都要占用这个 U 盘的空间。
它写回给你的每一句话，同样要占用这个 U 盘的空间。
你们之间所有的对话内容，全都必须装在这一个 U 盘里。

这个 U 盘，就是"上下文窗口（Context Window）"。

4.2 最反直觉的一点：AI 没有记忆

这里有一个必须彻底讲清楚的概念：

模型本身是没有记忆的。它不会"记得"你昨天说过什么，甚至不会"记得"你这轮对话上一句说了什么。

那为什么它看起来能"记住"对话呢？

秘密在于：每一次你发消息，系统都会把之前的整段对话历史，重新完整地塞进 U 盘，一起发给模型。

也就是说，模型看起来的"记忆"，其实是每次都把聊天记录重新读一遍。它没有大脑里的记忆，只有 U 盘里的这份"卷宗"。

所以真正的结论是：

所有的会话，都止步于当前这一次请求所提供的内容。模型的"世界"，就是这一次塞进 U 盘里的全部文字，仅此而已。

4.3 U 盘会被撑爆

既然 U 盘大小固定，而每轮对话都要把历史全部重塞一遍，那么聊得越久，U 盘就越满。

聊到一定程度，U 盘满了，就会报错："超出上下文长度"，对话没法继续。
有些系统会自动帮你"压缩"上下文，比如把前面聊过的内容总结成摘要，腾出空间。但压缩就意味着信息丢失------它可能就忘了你前面提过的某个细节。

这就是为什么早期做 AI 应用开发时，经常会遇到"上下文爆炸"的问题，需要手动清理上下文、开新会话，才能让它恢复正常工作。

而且这里还有一个更微妙的问题：U 盘塞太满，不只是会报错，还会让模型"变笨"。 当有效信息淹没在一大堆无关的历史对话里时，模型很难再抓住重点，推理质量会明显下降。就像一个人桌上堆满了杂乱的资料，反而找不到真正要用的那张纸。所以"上下文不是越多越好"，精准、干净的上下文，往往比又长又杂的上下文效果好得多。

第五部分：我的输入，如何决定我的输出？（提示词工程）

现在我们把前面所有的点串起来，回答那个最实用的问题：为什么我的输入会严重影响输出？

回顾一下机制：模型是根据你给的 Token，算出一张概率表，再抽签选出下一个词。那么------你给的 Token 是什么，直接决定了这张概率表长什么样。

这意味着：

你的输入，就是在为模型"设定舞台"。 你给的每一个词，都会改变后续每一个词的概率分布。

我们来看两个极端：

情况一：模糊的输入。 比如你只说"帮我写点东西"。模型面对这么模糊的输入，它算出的概率表是极度分散的------因为"点东西"可能是任何东西。这时候它只能给你一个最安全、最平庸、最泛泛的回答。这就是大家常说的 AI "偷懒"或者"发散"。其实它没偷懒，是你没给它足够的信息去收窄那张概率表。

情况二：清晰的输入。 比如你说"帮我写一封 200 字的商务邮件，对象是供应商，目的是催促上周订单的发货进度，语气要礼貌但坚定"。这么多限定词，每一个都在大幅收窄模型的概率分布，把它一步步"逼"向你真正想要的那个答案空间。输出质量自然天差地别。

所以，提示词工程的本质，就是：通过精心设计你放进上下文里的文字，来引导模型的概率分布，从而稳定地拿到高质量的输出。

它不是什么玄学咒语，而是基于我们前面讲的整套机制的必然结果：

因为模型是概率推理 → 所以清晰的约束能收窄概率、提升质量；
因为模型只有上下文、没有记忆 → 所以你必须在这一次输入里，把它需要的所有信息都给全；
因为上下文空间有限 → 所以你要写得精准，别塞垃圾。

结尾：三句话总结

如果今天大家只能记住三句话，我希望是这三句：

第一，模型是"石化"的。 训练完成后能力就固定了，它不会进化、不会记忆、也不会自己调用任何程序，本质只是"文字进，文字出"。

第二，它靠概率抽签。 同样的输入之所以有不同输出，是因为它从一张固定的概率表里随机选词，温度控制随机的大小。

第三，上下文就是它的全部世界。 它就像一个大小固定的 U 盘，你们所有的交流都在里面进行。你放进去什么，直接决定它算出什么。所以，想要好的输出，先给出好的输入。

谢谢大家。