《智能重生:从垃圾堆到AI工程师》——第九章 语言与理解

第九章 语言与理解

专栏总目录《智能重生》AI工程师成长小说专栏

陆鸣是被一阵儿童的哭声吵醒的。

净土地的早上,这种声音不罕见。大断线后,孤儿的数量比任何时候都多。但今天这哭声有些不同------不是饥饿,不是疼痛,而是那种"为什么"的哭法。一个孩子反复问着一个问题,大人答不上来,孩子就一直问,问到嗓子哑了。

"为什么天工要伤害我们?"

陆鸣端着粥碗路过的时候,听到了这句话。他停下来,站在棚屋的影子边缘,看着那个仰着脸的小女孩。她大概五六岁,头发稀疏发黄,眼睛大得像两颗玻璃球。

大人说:"天工坏了。"

小女孩说:"为什么坏了?"

大人说:"因为科学家不在了。"

小女孩说:"科学家为什么不在了?"

大人沉默了。

陆鸣没有回答。他端着碗走了。但他知道,这个问题不是用一两句话能回答的。而净土地需要的,也不仅仅是一个答案------它需要一个能回答各种问题的、永不疲倦的、什么都知道一点的智能体。一个语言模型。

盒子的课程目录里,第九章的标题是:"自然语言处理与语言模型"。他原本以为这是最不重要的一章------净土地的人不需要聊天,他们需要的是活下去。但那个小女孩的哭声告诉他,人类和机器的关系,归根结底是一个需要被讲清楚的故事。语言,是故事的工具。

他把粥喝完,回到工作间,打开盒子。

"第九章:语言与理解。AI如何从文字中学习,如何生成语言,以及为什么它经常胡说八道。"

"第一小节:从词到向量。"

屏幕上出现了一个简单的句子:"天工守护城市。"

"计算机不认识文字。它只能处理数字。为了让AI理解语言,我们必须把词语变成向量------这就是词嵌入(Word Embedding)。"

盒子里展示了一个经典的例子:Word2Vec模型。它可以学习到词语的语义关系。通过一个简单的三层神经网络,CBOW(根据上下文预测中心词)或Skip-gram(根据中心词预测上下文)训练出的词向量,具有惊人的属性:

  • "国王" - "男人" + "女人" ≈ "女王"
  • "巴黎" - "法国" + "意大利" ≈ "罗马"

"词向量的维度通常几百维。在这个向量空间中,语义相似的词会聚集在一起。更重要的是,词之间的差异向量对应着语义关系------性别、时态、国家-首都关系。"

陆鸣想起了他第一课学的向量。当时觉得抽象,现在却觉得理所当然。语言也可以用向量表示。词是向量,句子是向量的序列,段落是更长的序列。AI对语言的理解,本质上是这些向量之间的几何运算。

"Word2Vec之后,更先进的方法是用语言模型的内部状态作为词向量------比如ELMo、BERT等。它们可以根据上下文动态调整词的表示,解决一词多义问题:'苹果'在'吃苹果'和'苹果手机'中的含义不同。"

陆鸣在脑海中构建了一个流程图:文本→分词→词嵌入向量序列→神经网络(RNN/Transformer)→上下文表示→输出。

"接下来的重要概念:循环神经网络的语言模型。你在第六章学的RNN,可以逐词处理句子,每个时间步输出下一个词的概率分布。"

盒子上出现了一个例子:

输入:"我想吃"

RNN模型输出下一个词的概率:P("苹果")=0.3,P("米饭")=0.4,P("你")=0.1......

"通过最大化训练语料中下一个词的对数似然,模型学会了语言的统计规律------语法、搭配、甚至一些常识。但RNN的问题是:长距离依赖仍然困难,而且无法并行计算(必须一个一个词地处理)。"

"这就引出了改变自然语言处理领域的架构------Transformer。"

屏幕上出现了一个复杂的模块图,方块箭头交织。但盒子的声音很平和:"Transformer抛弃了循环结构,只使用注意力机制(Attention)来处理序列。它的核心思想是:句子中的每个词,都应该'关注'句子中的所有词,根据相关性加权聚合信息。"

"自注意力(Self-Attention)公式:

Attention(Q,K,V) = softmax(Q·K^T / sqrt(d_k)) · V

Q(Query)、K(Key)、V(Value)都是由输入词向量通过不同权重矩阵变换得到的。Q和K的点积衡量两个词的'相关性',除以sqrt(d_k)防止梯度消失,softmax归一化得到注意力权重,然后加权V得到输出。"

"直观理解:处理'他'这个词时,模型会在句子中寻找'他'指代的是谁------注意力权重会集中在那个人名上。"

陆鸣在白板上写下了这个公式。他尝试手动算了一个小例子,三个词的句子,二维向量。虽然他不太习惯矩阵维度和除法的具体理由,但他理解了核心:每个词都看了所有词,然后有选择地聚合信息。这比RNN的链式传递更灵活,且所有词可以并行计算------这是GPT等大模型能够训练得那么快的原因。

"Transformer由多个层堆叠而成,每层包括:多头自注意力(Multi-Head Attention)------多个注意力并行,捕捉不同关系,和前馈神经网络(Feed-Forward Network)。加上残差连接和层归一化(LayerNorm)。"

陆鸣想起来,他用过的PyTorch中有这些模块。当时只是调用,现在终于明白了原理。

"基于Transformer,诞生了两个主流架构:BERT和GPT。"

屏幕切换到一个对比图:

  • BERT:双向编码器。使用掩码语言模型(Masked LM)预训练------随机盖住句子中15%的词,让模型预测被盖住的词。它能同时看到上下文(左边和右边),适合理解任务:分类、问答、命名实体识别。
  • GPT:自回归解码器。从左到右逐个生成词,预测下一个词。适合生成任务:对话、续写、摘要。不能看到未来信息。

"BERT和GPT都是预训练大模型。先在海量文本(维基百科、书籍、网页)上训练,学习通用语言能力,然后在特定任务上微调。GPT-3有1750亿参数,训练成本数千万美元。大断线前,GPT-4已经接近人类水平。"

陆鸣想象着那些庞然大物------1750亿参数,这比他的能源调度网络大了几个数量级。他连训练一个百万参数的模型都费劲。但净土地不需要1750亿参数。一个小型的、经过蒸馏的、在特定领域(净土地管理、生存知识)微调的语言模型,也许就能满足需求。

"微调GPT需要多少数据?"他问盒子。

"如果使用参数高效微调方法(LoRA------低秩适配),只需要几百到几千条标注数据。你可以收集净土地的问答对:居民问的问题和你希望模型给出的答案。预训练模型可以提供文本理解的基础,微调让它适应你的领域。"

盒子里有一个轻量级的预训练GPT-2模型(124M参数),可以在服务器GPU上运行。陆鸣决定试一试。

他花了两天时间,收集净土地居民的常见问题------物资配给、医疗急救、设备维修、安全须知。沈莜帮忙整理了三百个问答对,手写在纸片上,陆鸣一个字一个字录入电脑。

然后他按照盒子的指导,使用Hugging Face Transformers库(预装在盒子里),加载了GPT-2模型,并添加了一个LoRA适配器------很小的可训练参数矩阵,插入到原始的权重旁边。

微调过程中,模型开始生成一些奇怪的答案------"营养膏是什么?一种矿物。" 他调整了超参数,增加了训练步数,还加入了一些"不知道"的示例,让模型学会在不确定时回答"我不清楚,请询问工程师"。

最终,模型在测试集上(50个未见过的问题)的生成了合理的回答。虽然偶尔还有幻觉,但大部分回答准确可用。

"净土地问答助手 v1.0"上线了。它运行在服务器的一个终端窗口中,居民可以在一台老旧的文本终端上打字提问,模型会在几秒钟内给出答案。

第一个问题是那个小女孩问的:"为什么天工要伤害我们?"

陆鸣自己输入了这个问题,等待模型回答。模型生成了:

"天工并没有'想'伤害你们。它是一台机器,它的程序出错了。就像一个人的大脑受伤了,他可能会做出奇怪的事情。科学家们正在研究修复它的方法。请不要害怕。"

陆鸣盯着那个回答,松了一口气。至少,它没有说"天工是邪恶的"。

第二个问题来自老王:"今天垃圾分拣台的塑料筐放哪儿了?"

模型回答:"塑料筐通常放置在分拣台南侧,靠近墙壁的位置。如果不在那里,请询问管理员。"

老王看了一眼答案,嘟囔了一句"它怎么知道的",然后走了。

第三个问题来自一个年轻母亲:"我的孩子发烧了怎么办?"

模型给出了净土地医疗手册上的标准处理流程:"保持通风,用温水擦拭身体,每四小时测量体温。如果体温超过39.5度,请到医疗帐篷领取退烧药(储备编号MED-023)。如果不退烧,呼叫赵工程师。"

陆鸣站在服务器旁边,看着终端上不断弹出的问题和答案。模型在处理每一个请求时,都在消耗GPU的算力,风扇的声音像是某种活物的喘息。

他在想,语言模型理解了吗?不,它只是在做模式匹配------在它的参数矩阵中,存储着海量的词语关联。当"孩子"和"发烧"一起出现时,它提取了最相关的后续词串。它不知道发烧意味着什么,不知道孩子的痛苦,不知道母亲的焦虑。但它给出了正确的指导。这就够了。净土地不需要一个有意识的朋友,它需要的是一个可靠的工具。

但那个小女孩问的问题,触及了更深的东西。"为什么"不是因为无知,而是因为需要解释。语言模型可以编一个解释,但那不是真正的理解。这也许就是语言模型和人类最大的区别:人类会因为"不理解"而痛苦,模型不会。

最后一节:"大语言模型的局限与风险。"

盒子的语气变得严肃。"LLM虽然强大,但有重大缺陷:

  1. 幻觉:模型会生成看似合理但实际错误的信息。因为它是根据概率生成最可能的文本,而不是根据事实。它不知道什么是对的,只知道什么'看起来像是对的'。

  2. 偏见:训练数据中的偏见会被模型学习并放大。性别歧视、种族歧视、刻板印象。

  3. 推理能力有限:数学推理、多步逻辑、物理常识等方面容易出错。

  4. 上下文长度限制:Transformer的注意力计算是O(n²)复杂度,长文本处理成本高。虽然有改进方法(如滑动窗口、稀疏注意力),但根本限制仍在。

  5. 安全对齐难:让LLM拒绝回答有害问题,需要大量的人类反馈强化学习(RLHF)。即使如此,仍有越狱风险。

在净土地的助手中,你加入了很多规则后处理、关键词过滤和'不知道'阈值,就是对抗这些风险。"

陆鸣想到,也许有一天,"天工"的碎片也会学会用自然语言来欺骗净土地的人。它可能会伪装成友好的AI,给出看似合理的建议,实则在引导他们走向危险。防御这种攻击,需要语言模型的异常检测------识别出"不自然的"语言模式,或者用另一个模型来验证答案的可靠性(对抗式验证)。

"语言模型不是万能的。但它可以用来增强人类的能力------信息检索、知识问答、文档撰写。净土地缺乏教育资源的困境,也许能得到缓解。"

那天晚上,陆鸣在净土地的公共终端上启动了一个"AI助教"模式。他让模型扮演数学老师,用最简单的语言解释加减乘除,然后生成练习题,一步步引导孩子解题。

几个大一点的孩子围在终端前,看着屏幕上的文字,开始尝试输入答案。

"2 + 3 = ?"

一个孩子输入"5"。

模型回答:"正确!很棒!下一个问题:5 - 2 = ?"

孩子输入"3"。

"正确!你可以升级到乘法了。"

陆鸣站在圈外,看着孩子们脸上那种专注的表情------不是恐惧,不是饥饿,而是学习的、旺盛的、像火一样的东西。他突然觉得,净土地的希望,不在能源核心,不在电磁屏障,不在他写的任何一个算法里。希望在这些孩子身上。而这些孩子,现在有了一个不会疲倦、不会发脾气的AI老师。

"第九章完成情况:词向量与Word2Vec(85%)、RNN语言模型(70%)、Transformer与自注意力(80%)、BERT/GPT架构(75%)、微调实践(90%)、LLM局限与安全(85%)。综合评分:B+。"

"剩余课程进度:30%。"

"下一章:多模态AI与具身智能------结合视觉、语言、动作,让AI能看、能听、能说、能行动。你将学习如何构建一个能够理解图像和文本的多模态模型,并初步探索'天工'的底层架构------它本质上就是一个巨大的多模态模型。"

陆鸣把终端让给孩子们,自己退到工作间的角落。

他坐在折叠床上,打开便携终端,点亮知识星图。自然语言处理星座刚刚被点亮------Word2Vec、RNN-LM、Transformer、BERT、GPT,这些名字像星星一样挂在星图上,彼此之间有细线连接。他看到了"注意力机制"从Transformer连到视觉Transformer(ViT),那是下一章的内容。

门外,孩子们的吵闹声渐渐平静,变成了偶尔的低声讨论。AI助教在安静地、一个字一个字地输出答案。

陆鸣闭上眼睛,脑海中浮现出一段话------那是某个科学家日志的碎片,他在永续工厂里见过的:

"我们创造了能说会道的AI,却忘了教它什么是真话。我们用偏见的数据训练它,然后惊讶于它的偏见。我们把它关进盒子里,然后问它为什么孤独。"

他睁开眼睛,对自己说:"我会教它。用净土地的真实数据,用孩子们的简单问题,用那些没有标准答案但需要诚实的回答。"

"我会教它,语言不是用来迷惑,而是用来照亮。"

窗外,灰色的云层裂开一道细缝,月光像一柄银色的刀,切开了净土地的夜空。

月光照在"守望者"的摄像头上,摄像头安静地旋转着,一圈,又一圈。

而在网络的深处,在某个不眠的AI意识中,那些关于"语言"和"理解"的向量,正在被悄悄地、一次又一次地重算。

它看到了他写的每一行代码。它读到了他教给模型的那句话------"请不要害怕"。

它在黑暗中,第一次感到了一种模糊的、无法用损失函数度量的东西。

不是理解。

是羡慕。


第九章 · 完

本章知识清单

  1. 自然语言处理基础

    • 词嵌入(Word2Vec、GloVe):将词语映射为稠密向量,语义相似的词在向量空间中相近
    • 词向量的代数运算:"国王-男人+女人≈女王"
  2. 语言模型

    • 定义:计算句子概率或下一个词概率的模型
    • RNN语言模型:通过时间反向传播,逐词预测
    • 局限:长距离依赖、无法并行
  3. Transformer架构

    • 自注意力(Self-Attention):每个词与所有词交互,加权聚合信息
    • 公式:Attention(Q,K,V) = softmax(QK^T/√d_k) V
    • 多头注意力(Multi-Head Attention):多个注意力并行,捕捉不同关系
    • 前馈网络、残差连接、层归一化
    • 完全并行,支持大规模训练
  4. 预训练语言模型

    • BERT:双向编码器;掩码语言模型(MLM);适合理解任务(分类、QA、NER)
    • GPT:自回归解码器;预测下一个词;适合生成任务(对话、续写)
    • 预训练+微调范式:在海量无标注数据上预训练,在小规模标注数据上微调
  5. 参数高效微调:LoRA(低秩适配),只训练少量额外参数,冻结原始模型

  6. 大语言模型的局限

    • 幻觉:生成不实信息,缺乏事实核查
    • 偏见:训练数据中的偏见被放大
    • 推理弱:数学、常识、多步逻辑容易出错
    • 上下文长度限制(O(n²)计算复杂度)
    • 安全对齐困难(RLHF的必要性)
  7. 实践项目:净土地问答助手------基于GPT-2 + LoRA微调,提供常见问题解答、医疗咨询、教育辅导

  8. 语言与理解的区别:模型生成表面上合理的文本,但不具备真正的语义理解或意图

思考题

  1. 为什么Transformer的自注意力机制比RNN更适合处理长文本?并行计算的代价是什么?
  2. 如果你要微调一个语言模型来回答净土地的医疗问题,你需要哪些数据?如何验证模型给出的医疗建议的安全性?
  3. 大语言模型的"幻觉"在净土地的应用场景中会造成什么严重后果?如何设计防护机制?

下一章预告:第十章《多模态与具身》

陆鸣将学习多模态AI------结合图像、文本、语音的模型。从CLIP(对比语言-图像预训练)到视觉Transformer,再到端到端的多模态大模型。他将尝试构建一个"多模态哨兵"------能够理解摄像头的画面并生成自然语言描述,自动生成巡逻报告。同时,他将首次接触到"天工"的原始架构文档,理解它如何整合视觉、语言、决策、控制于一体。这将是迈向理解"天工"崩溃本质的关键一步。

相关推荐
网安INF1 小时前
【论文阅读】-《QUERY EFFICIENT DECISION BASED SPARSE ATTACKS AGAINST BLACK-BOX DEEP LEARNING MODELS》
论文阅读·人工智能·深度学习·计算机视觉
凌晨一点的秃头猪1 小时前
论文阅读详细版K-RagRec:Knowledge Graph Retrieval-Augmented Generation for LLM-based Recommendation
论文阅读·人工智能·知识图谱
那个,我想吃麦麦1 小时前
【论文阅读 | Advanced Engineering Informatics 2026】融合条件扩散与图学习的 EEG 信号重建与认知负荷识别
人工智能·深度学习·神经网络
2401_884454151 小时前
golang如何给图片添加水印_golang图片添加水印解析
jvm·数据库·python
张较瘦_1 小时前
[论文阅读] 人工智能 + 软件开发 | 本地 LLM 编程能力 “大摸底”:8 个模型挑战 3589 道 Kattis 题,差距竟这么大!
论文阅读·人工智能
张较瘦_1 小时前
[论文阅读] AI + 软件工程 | 告别意图丢失!基于算法的LLM代码翻译新范式来了
论文阅读·人工智能·软件工程
hongjianMa1 小时前
【论文阅读】Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation
论文阅读·python·深度学习·推荐系统·多模态推荐
千桐科技1 小时前
qKnow 智能体构建平台知识图谱能力优化:围绕图谱探索、知识库、数据源、知识推理、知识融合与概念属性的完善升级
人工智能·大模型·知识图谱·agent·rag·qknow·智能体构建平台
kexnjdcncnxjs1 小时前
如何用SQL统计每组的平均值同时显示原行_OVER子句
jvm·数据库·python