第 5 章:幻觉、记忆与局限——它不是神

一份从未存在的判决书

2023 年,美国纽约发生了一起真实的法律事故。

一位律师在准备诉讼材料时,让 ChatGPT 帮他查找相关案例判决。ChatGPT 给出了六个案例,每个都有完整的案例名称、法院名称、判决年份和关键摘要,格式专业,引用规范,看起来无懈可击。

这位律师没有逐一核实,就把这些案例引用进了提交给法院的正式文件。

法官很快发现了问题:这六个案例,一个都不存在。它们是 ChatGPT 凭空捏造的。每一个案例名称、每一个判决摘要,都是大模型生成的"听起来合理"的内容,没有任何真实的法律记录与之对应。

这位律师最终因为提交虚假引用面临制裁,在法庭上当众道歉。

这件事在法律界引发了广泛讨论,也成为了解释大模型"幻觉"问题最著名的案例之一。


为什么模型会一本正经地胡说

"幻觉"这个词在大模型语境里有特定含义:模型生成了听起来合理、有时甚至非常权威,但实际上是错误或根本不存在的内容

这不是模型在撒谎,也不是 bug,而是它工作方式的直接后果。

回想第 1 章说的:大模型做的是生成 ,不是检索。它没有一个"事实数据库"在背后查询,它做的是根据上下文预测"接下来最可能出现的词"。

当你问它"2018 年某法院关于知识产权的判决案例",它并不是在数据库里搜索,而是在"生成一段语义上符合这个查询的回答"。一个真实存在的案例和一个虚构但格式完全正确的案例,在语言层面看起来几乎一样------都有案例名、法院名、年份、摘要。于是模型会生成一个听起来完全合理的答案,而这个答案可能并不对应任何真实存在的事物。
模型内部
语言模式

(案例应该长什么样)
生成一个

'听起来合理'的案例
训练中见过的

真实案例片段
你的问题

'列举相关案例'
大模型

预测最可能的回答
输出:格式完整

但可能是虚构的案例

图 5-1:幻觉产生的机制。模型用语言模式和训练记忆"拼凑"出一个听起来合理的答案,而不是查询事实数据库。当真实信息不足时,模型仍然会生成一个格式正确、内容流畅的答案------即使内容是虚构的。

更危险的是:模型在生成幻觉内容时,语气和真实内容完全一样自信。它不会说"我不确定",它会给你一个标准格式、行文专业的回答,让你完全感觉不到其中的问题。


幻觉的几种常见形式

幻觉不只是"编造案例"这一种形式,它有很多面孔:

事实幻觉:编造从未发生的事件、从未存在的书籍或论文、错误的统计数据。比如问"某位作者的代表作",模型可能编造一本听起来符合该作者风格的书名。

引用幻觉:提供看起来格式完整的学术引用,但论文作者、期刊、年份、标题全部对不上。这是科研领域最常见的陷阱。

细节幻觉:大方向正确,但具体细节出错。比如正确描述了一个历史事件,但把年份或人名说错了。这种幻觉最难发现,因为整体看起来是对的。

过度推断:把"可能是"说成"就是"。模型在表达不确定性方面天然存在缺陷,往往会把推测当作确定事实输出。
低危险区
引用幻觉

论文来源编造

★★ 较难核实
过度推断

把推测说成事实

★ 相对易辨别
高危险区
细节幻觉

日期·人名出错

★★★ 难以发现(最隐蔽)
事实幻觉

完全编造内容

★ 相对易发现

图 5-2:幻觉的四种常见形式。从最严重的"完全编造"到相对隐蔽的"细节出错",幻觉的危险程度和可发现难度各不相同。


知识截止日期:它不知道昨天发生了什么

除了幻觉,大模型还有另一个硬性限制:知识截止日期(Knowledge Cutoff)

在第 4 章,我们说过训练结束后模型的参数就固定了。这意味着模型的知识被"冻结"在了训练数据收集结束的那个时间点。

你问它"最新的 iPhone 型号是什么",它给你的答案是训练截止日期时的最新款,而不是今天真正最新的那款。你问它"某公司现在的 CEO 是谁",如果这位 CEO 是在训练截止之后上任的,它要么给你错误答案,要么承认不知道。
约 6--12 个月
又过 1--3 年
这段时间发生的一切

模型完全不知道
训练数据

收集截止

知识在此冻结
模型

正式发布
你使用

模型的今天

图 5-3:知识截止日期示意。从训练数据截止到你使用模型,往往有一到数年的时间差。这段时间里发生的所有事情,对模型来说都不存在。

这个限制在实际使用中意味着:

  • 不要用大模型查实时信息------股价、天气、新闻、最新版本号;
  • 不要用大模型确认近期事件------政策变化、人事变动、突发事件;
  • 要告诉模型当前时间------如果你的问题涉及时间背景,明确告知,避免它用过时的信息判断。

部分大模型产品通过联网搜索解决了这个问题,但那是产品层面的功能叠加,不是模型本身"知道"了新内容------本质上还是检索加生成的组合。


推理边界:哪些任务它永远做不好

除了幻觉和知识截止,大模型还有一些来自架构本身的局限,是当前技术路径下很难根本解决的:

精确计算:大模型不擅长做数学,尤其是需要精确计算的场景。它"理解"数学,但它是用语言模式处理数字,而不是在做真正的算术。复杂计算出错率很高------这也是为什么专业场景下要配合计算器或代码解释器使用。

精确计数:回到第 2 章的"strawberry 里有几个 r"------这类需要逐字符处理的任务,对以 Token 为单位处理语言的模型来说天然困难。

实时状态感知:模型没有"现在"的概念,它活在训练数据的时间切片里,无法感知当前时间、当前系统状态、当前网络环境。

高度依赖事实准确性的场景:医疗诊断、法律引用、财务数据------凡是需要精确无误的事实的地方,大模型的幻觉风险让它成为危险的独立信息源。

超长链路的精确推理:大模型在短链推理上表现出色,但当推理步骤超过一定长度,错误会累积,结论往往偏离正轨。
高风险区(需精确·有固定答案)
精确计算
实时信息
可用但需验证(有一定精确要求)
代码草稿
逻辑推理
数据分析
擅长区域(允许模糊·有创造空间)
创意写作
解释概念
翻译改写

图 5-4:大模型能力分布象限。越靠近右上角(允许模糊、开放创造),大模型越擅长;越靠近左下角(需要精确、有固定答案),风险越高、越需要验证。这张图不是说大模型不能用于这些场景,而是说用法和验证标准需要不同。


自信与准确,是两件独立的事

理解了幻觉、知识截止和推理边界之后,有一个核心认知需要真正内化:

大模型的自信程度,和答案的正确程度,没有直接关系。

人类在不确定的时候通常会说"我不太确定"、"你最好再查一下"。大模型不擅长这件事------它生成内容的方式不包含"这段话我有多大把握"的元信息,它只是在预测最合理的语言输出。结果就是:它说谎时和说真话时一样自信,甚至更自信,因为流畅、权威的语气本身就是"高概率出现"的语言模式。

这不是大模型的道德问题,而是工作原理决定的结构性特征。
模型语气同样自信

但准确率大幅下降
危险区(高自信·低准确)
罕见人物信息
实时资讯查询
边缘领域知识
安全区(高自信·高准确)
常见知识问答
历史主流事实
复杂推理题

图 5-5:大模型输出的自信程度与准确性不成正比。对于它"见过很多次"的常见内容,生成往往准确;对于罕见、边缘或需要实时信息的内容,它同样自信,但准确率大幅下降。


局限是使用的起点,不是终点

讲了这么多模型的弱点,不是为了让你对它失去信心,而是为了让你用对它。

大模型在以下场景里依然极其有价值:内容创作、解释概念、改写润色、代码草稿、头脑风暴、提炼摘要------这些任务有一个共同特征:它的输出你能判断好坏,允许有创造空间,不需要 100% 事实准确

真正危险的用法,是把它当作一个"事实查询机器"在不加验证的情况下信任它的输出。

医生用大模型生成病历摘要草稿,然后自己核实------这是好用法。

律师用大模型直接生成判决引用,未经核实就提交法院------这是前面故事里的教训。

理解局限,才能找到正确的使用位置。这也是接下来几章的基础:我们要看的 Prompt 工程、RAG、Agent,都是在理解局限的前提下,找到绕过局限、放大优势的工程手段。


本章小结

  • 幻觉:模型生成"听起来合理"而非"经过核实"的内容,是其生成机制的直接后果,而非 bug;
  • 幻觉有多种形式:事实幻觉、引用幻觉、细节幻觉、过度推断;
  • 知识截止:训练数据有截止日期,模型对此后发生的事情一无所知;
  • 推理边界:精确计算、精确计数、实时信息、高精度事实场景是大模型的高风险区;
  • 自信 ≠ 准确:模型输出的语气无法反映内容的可信程度;
  • 理解局限是正确使用的前提------接下来的实践篇,都建立在这个认知上。
相关推荐
Deepoch14 小时前
以终端智能实现自主除草:Deepoc具身模型开发板的技术落地
人工智能·开发板·具身模型·deepoc·除草
前端白袍14 小时前
AI+:OpenClaw:开源 AI Agent 框架的定位与技术分析
人工智能·开源·openclaw
MomentYY14 小时前
第 1 篇:Agent 到底是什么?别被概念唬住了
人工智能·python·agent
字节跳动数据库14 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能·后端
高洁0114 小时前
中国人工智能培训网—AI系列录播课
人工智能·机器学习·数据挖掘·transformer·知识图谱
AI医影跨模态组学14 小时前
Radiology(IF=15.2)北京大学肿瘤医院影像科孙应实教授团队:CT预测微卫星不稳定性高结肠癌区域淋巴结转移
人工智能·深度学习·论文·医学·医学影像·影像组学
SAP上海工博云署14 小时前
汽配出海业务扩张难题拆解:SAP Business One 适配跨境制造管理
大数据·人工智能·云计算·制造·信息与通信·零售
闵孚龙14 小时前
AI Agent 构建实战:Claude Code 模式迁移、Rust 代码审查 Agent、六层架构与工程闭环全解析
人工智能·架构
AI算法沐枫14 小时前
大一学生如何入门机器学习,深度学习,学习顺序如何?
人工智能·python·深度学习·学习·线性代数·算法·机器学习