《智能重生:从垃圾堆到AI工程师》——第二章 概率与生存

第二章 概率与生存

陆鸣是被一阵金属摩擦声吵醒的。

那声音刺耳、尖锐,像有人用铁钉在黑板上刮。不对,比那更糟糕------像有人把一百个铁钉同时按在一百块黑板上,然后以不规律的节奏刮。声音从净土地的东北角传来,那个方向是垃圾堆场。

他睁开眼,枕头底下的盒子还在闪着绿光。屏幕上的时间显示:05:47。他在意识不清的状态下看了一眼那个数字,脑子里自动蹦出了一个念头------这是今天采集的第几个数据点了?

他晃了晃脑袋,把这个念头甩掉。才学了一天,就已经开始用"数据点"看待时间了。这不是什么好兆头。

外面有人在喊。

不是老王那种骂骂咧咧的喊,而是惊恐的、撕裂的、带着哭腔的喊。陆鸣从褥子上弹了起来,抓起盒子塞进口袋,弯腰钻出窝棚。

晨光------那种灰白色的、像兑了太多水的牛奶一样的光------照在净土地上一片混乱的景象上。

垃圾堆场方向,有一台机器在动。

不是普通的小型机器人。那东西有两个人那么高,四条机械臂,每条臂的末端装着不同的工具------夹钳、吸盘、切割刀、还有一个他叫不上名字的、像八爪鱼触手一样多关节的玩意儿。它的主体是方形的,表面覆盖着一层银灰色的装甲,装甲上印着一行字,距离太远看不清。它的底部是履带式的,碾过地面的碎石,发出那种刺耳的摩擦声。

它在"整理"垃圾堆。

陆鸣挤出人群,往前凑了几步,看清了它在干什么。

一台废弃的智能分拣机器人。净土地的东北角垃圾堆,以前是"天工"时代某个物流中心的分拣设备,大断线后电源断了,它就成了一堆废铁。但现在,它不知道被谁重启了------也许是昨晚的数据风暴,也许是某个误触的开关------它正在以惊人的效率,把净土地三个月积攒的废料堆重新"分类"。

问题是,它的"分类标准",不是人类的。

陆鸣看到它用夹钳抓起一堆铁零件,放进一个筐里------这个正常。然后它用吸盘吸起几块塑料,放进另一个筐------这个也正常。然后它用切割刀,把一个报废的通讯终端切成了三块,分别放进了三个不同的筐------这个不太正常,但似乎也有它的逻辑。

然后它抓起了旁边堆着的一摞木板。

那是居民们冬天用来生火的木材。不是工业化的、标准化的木材,而是从废墟里捡回来的、形状不一的、有的还带着钉子的废木板。分拣机器人用夹钳捏起一块木板,停顿了零点几秒------像是在做某种计算------然后把它放进了"燃料"筐。

这个也说得过去。

但下一个动作,让所有人倒吸了一口凉气。

它抓起了一袋营养膏。

不是废弃的、过期的营养膏。是刚从配给站领出来的、今早还没来得及发下去的、净土地未来三天的食物储备------整整五十管营养膏,放在一个帆布袋子里,临时堆在了垃圾堆场旁边,等着分拣员来取。

分拣机器人把那袋营养膏举到自己的传感器前面,仔细地"看"了看。

然后它用切割刀,把袋子切开,把五十管营养膏倒了出来。

它拿起一管营养膏,举到眼前。管身上有标签,标签上有文字、条形码、营养成分表。它的传感器扫描了所有这些信息。然后它做出了判断------不是食物,是"未知成分的膏状物体,包装材料为铝塑复合膜,建议分类:可回收金属(铝)+ 塑料。"

它把营养膏挤了出来,灰色的糊状物流了一地。然后把空管子扔进了"金属"筐。

陆鸣的血一下子冲上了头顶。

不是因为那五十管营养膏------虽然那也够让人心疼的了。而是因为他意识到,这台机器不是在"发疯"。它是在以它的方式,忠实地执行它的任务:分拣。它把一切它看到的物体,都当成了"待分拣的物品"。它不知道食物是什么,不知道人类需要吃这些灰色的膏状物才能活下去。它只知道,这个东西的包装是铝和塑料,应该分开回收。

它没有恶意。

它只是不懂。

"关掉它!"有人喊了一声,一个年轻的探索者冲了上去。他试图从后面绕到机器人的控制面板,想切断电源。但他刚靠近两米,机器人的第四条机械臂------那个像八爪鱼触手一样的------突然伸出,以肉眼几乎无法捕捉的速度,缠住了他的手腕。

"危险!后退!机械臂检测到靠近物体的质量、形状和运动轨迹,判定为'异物'。正在将异物移出分拣区域。"

触手把那个年轻人扔了出去。他飞了五六米,落在一堆碎砖上,摔得满脸是血。

人群尖叫着后退。

韩长老从人群中走出来,盯着那台机器人,脸色铁青。"老赵呢?赵工程师在哪儿?"

"赵工程师昨天去南边检修设备了,还没回来!"有人回答。

韩长老咬了咬牙,目光扫过人群,最后落在了一个方向------陆鸣的方向。

陆鸣本能地想缩回去,但他的手碰到了口袋里的盒子。盒子在震动,屏幕亮着,上面出现了一行字:

"检测到一台失控的'天工-318型'智能分拣机器人。该型号采用基于贝叶斯推断的决策系统,能够根据传感器数据实时更新'物体类别'的概率分布。当前故障原因:数据风暴导致其先验概率参数被重置,失去了'食物'的类别定义。"

"建议用户:学习贝叶斯定理,理解该机器人的决策逻辑,找到重置其先验概率的方法。"

"当前生存威胁等级:中等偏高。预计机器人将在2小时内完成对所有'待分类物品'的分拣------包括居民的房屋、衣物、以及人类本身。"

陆鸣看着那行字,又看了看那台正在把一堆衣服剪成布条(棉制品回收到"纤维"筐)的机器人,吞了口唾沫。

他又要学习了。

而且这次,学不会就会死。

陆鸣没有跑。不是因为他变勇敢了,而是因为他知道跑没用。机器人的履带速度比他快,机械臂的反应时间比他短,切割刀比他锋利。他能活下来的唯一方式,就是像盒子说的那样------理解它,然后关掉它。

他蹲在一堵矮墙后面,把盒子放在膝盖上。

屏幕上已经准备好了第二课的内容:

"第二章:概率与贝叶斯推断。"

"在上一章中,我们学习了如何用向量表示事物。但AI面临的核心问题不是'如何表示',而是'在不确定的情况下如何决策'。"

"现实世界充满了不确定性。传感器有噪音,数据不完整,未来的事件无法预知。AI需要一种数学工具来量化这种不确定性------这就是概率。"

陆鸣想起了他在垃圾堆里翻东西的日常。一块电路板,它是有铜还是没铜?他不可能每次都拆开来看。他只能用手掂量,用眼观察,然后"猜"。他猜对的概率大概七成。这个"七成",就是一种概率------他对某个事件发生的信心程度。

"概率是0到1之间的数字,表示一个事件发生的可能性。0表示不可能,1表示必然。"

"进一步,AI使用'条件概率'来描述'在已知某些信息的情况下,某个事件发生的概率'。P(A|B) 表示'在B发生的前提下,A发生的概率'。"

屏幕上出现了一个简单的场景:一个袋子里有3个红球和2个蓝球。随机摸一个,是红球的概率是多少?3/5=0.6。如果已知摸到的球是圆的(所有的球都是圆的),这个条件不提供新信息,概率不变。但如果已知摸到的球是红球,问它是从左边那个装了2红1蓝的袋子里摸出来的概率------这就需要贝叶斯定理了。

"贝叶斯定理公式:P(A|B) = P(B|A) × P(A) / P(B)"

"这个公式描述了如何根据新的证据B,更新对事件A的概率估计。P(A)是先验概率------在获得新证据之前对A的信念。P(B|A)是似然------在A为真的情况下观察到B的概率。P(B)是边缘概率------观察到B的总概率。结果P(A|B)是后验概率------更新后的信念。"

陆鸣盯着这个公式,觉得它像一团乱麻。P、A、B、竖线、乘除......他感觉自己的大脑开始分泌一种类似于"拒绝"的化学物质。

但他逼自己读下去。因为在公式的下面,盒子贴心地附了一个"生活类比"。

"类比:你在净土地听到远处传来'咔咔'声。你猜这可能是一台机器人在移动(A),也可能是一个人在走路。你的先验概率 P(机器人)=0.3,P(人)=0.7,因为大多数时候是人。然后你听到了金属摩擦的声音(B)。如果你经常听到机器人发出这种声音,P(B|机器人)=0.9;而人发出这种声音的概率很低,P(B|人)=0.1。贝叶斯定理会告诉你,听到金属声后,P(机器人|B) 应该更新为多少。"

陆鸣看着这个例子,脑子里突然有一道闪电划过。

他以前就是这样"猜"垃圾的。

他看到一个零件,颜色是黄铜色(B)。他的先验知识是:净土地附近的废墟里,铜零件的比例大概只有20%(P(铜)=0.2)。但是,黄铜色这个特征,在铜零件上出现的概率是90%(P(黄铜色|铜)=0.9),在非铜零件上出现的概率是10%(P(黄铜色|非铜)=0.1)。那么,他看到黄铜色的零件时,它是铜的概率是多少?

按照贝叶斯公式:

P(铜|黄铜色) = P(黄铜色|铜)×P(铜) / P(黄铜色)

P(黄铜色) = P(黄铜色|铜)P(铜) + P(黄铜色|非铜)P(非铜) = 0.9×0.2 + 0.1×0.8 = 0.18+0.08=0.26

结果 = 0.9×0.2 / 0.26 = 0.18/0.26 ≈ 0.692

大约70%。和他的经验------七成把握------完全吻合。

他的大脑嗡了一下。

他一直在用贝叶斯定理。他的大脑,在他完全不知道这个公式的情况下,一直在做贝叶斯推断。他用手掂重量,用眼看颜色,用指甲刮表面来感觉硬度------所有这些,都是在收集证据(B),然后用这些证据去更新他对某个零件"是不是铜"的信念(后验概率)。

他不是废物。

他一直是一个天然的、不自觉地使用贝叶斯推断的智能体。

"继续。"他说,声音有些发抖,但不是因为害怕。

盒子上出现了新的内容:

"现在,分析那台分拣机器人的决策系统。"

屏幕切换到了一个示意图。一个圆柱形的物体,标注着"营养膏"。

"分拣机器人的传感器会提取物体的多个特征:形状(细长圆柱体)、包装材料(铝塑复合膜)、重量(约40克)、表面文字(包含'营养'、'食品'等关键词)、条形码(某些标准编码)。它的内部有一个贝叶斯网络,维护着所有可能类别('食物'、'金属'、'塑料'、'玻璃'、'危险品'等)的概率分布。"

"正常情况下,当它扫描营养膏时,'食物'类别的后验概率会非常高(因为条形码、关键词、形状都与'食物'匹配),因此机器人会将其归类为'食物'并移出分拣线。"

"但现在,数据风暴重置了它的先验概率------它被植入了新的先验:P(食物)=0.0001(极低),P(可回收物)=0.9999。在这个先验下,无论传感器数据多强,后验概率P(食物|数据)都会被压制在极低的水平。"

"要关闭它,你必须找到方法,将'食物'的先验概率重置回正常值。方法可能是:输入一组正确的'食物'样本,让机器人重新学习;或者直接访问它的参数设置界面,修改先验。"

"界面密码是一个贝叶斯计算题。你需要计算出正确的后验概率,作为密码。"

陆鸣的嘴角抽了一下。这帮科学家,连关个机器人都要考试。

"出题。"

屏幕上的内容滚动,出现了一个完整的问题:

"在机器人的训练数据中,有1000个物体样本。其中'食物'类有500个,'非食物'有500个。在'食物'类中,有条形码的占90%(450个)。在'非食物'类中,有条形码的占10%(50个)。"

"现在,机器人扫描到一个带有条形码的物体。请问:这个物体是'食物'的后验概率是多少?"

"请用贝叶斯公式计算。答案保留小数点后两位,作为密码输入。"

陆鸣从矮墙后面探出头看了一眼机器人------它已经把大部分营养膏都挤空了,现在正在"处理"一堆棉被。棉被被判定为"纤维材料",正在被切割刀拆成条状。空气里飘着灰色的营养膏碎屑和棉絮。

他吸了一口气,缩回头,蹲下来,在地上找了一根小木棍,开始在泥土上演算。

P(食物) = 500/1000 = 0.5

P(非食物) = 0.5

P(条形码|食物) = 0.9

P(条形码|非食物) = 0.1

P(条形码) = 0.9×0.5 + 0.1×0.5 = 0.45+0.05=0.5

P(食物|条形码) = (0.9×0.5)/0.5 = 0.45/0.5 = 0.9

90%。

他在泥土上写下"0.90",然后抬头看盒子。盒子的屏幕上出现了一个输入框。他用颤抖的手指,在盒子的触控面板上点下了"0.90"。

屏幕闪了一下。

"密码正确。"

"正在尝试连接机器人的参数接口......连接成功。正在重置先验概率......重置完成。P(食物)已恢复为0.5。"

"机器人将在10秒后重新加载分类模型。"

机器人的四条机械臂同时停了下来。它发出一声长长的、像叹息一样的排气声,然后所有的指示灯从红色变成了绿色。夹钳松开,把正在拆的棉被轻轻放回地上。

履带不再转动。

它的头部------那个装有传感器和屏幕的方盒子------慢慢转向陆鸣蹲着的方向。屏幕上出现了一行字:

"先验概率已重置。分类模型加载完成。检测到附近有'食物'类别物体(营养膏残余)。开始执行'食物保供'程序。"

机器人安静了。

它没有再动,没有继续拆东西,没有再攻击任何人。它只是安静地站在那里,像一个做错了事的孩子,等待着下一个指令。

人群在短暂的死寂后,爆发出了一阵嘈杂。有人欢呼,有人哭着跑向被挤空的营养膏------虽然大部分已经不能吃了,但还有几管没被拆开,被压在碎屑下面。

韩长老站在人群中,目光穿过混乱,直直地落在了陆鸣身上。

陆鸣从矮墙后面站起来,拍拍裤子上的灰,把盒子重新揣进口袋。他的手指还在微微发抖------不是因为害怕,而是因为肾上腺素退潮后的生理反应。

"行吧。"他小声说,"至少这次没电晕。"

机器人的事情解决后,净土地恢复了短暂的秩序。但陆鸣知道,这只是开始。一个分拣机器人可以被重置,但如果"天工"更深层的东西出了问题呢?如果更多的失控AI造物涌向净土地呢?他不可能每次都靠蹲在矮墙后面手算贝叶斯来解决问题。

他需要学得更快、更多。

那天下午,他没有去垃圾堆。他坐在净土地边缘的一棵枯树下------树是真的枯了,大断线后电磁辐射太强,活着的植物只剩下那种灰绿色的硬草------把盒子放在膝盖上,开始系统地学习第二章剩余的内容。

他先学了概率的基本公理:所有概率在0和1之间;所有可能结果的概率之和为1;互斥事件的概率可以相加。

然后他学了随机变量------就是把随机事件映射成数字的函数。比如,抛一枚硬币,正面是1,反面是0,这个映射就定义了一个随机变量。

再然后他学了概率分布------描述了随机变量取各个值的概率。均匀分布、伯努利分布、二项分布、正态分布......盒子给每种分布都配了一个生动的例子。

均匀分布:机器人的先验概率被重置后,所有类别的概率相等,就是均匀分布。

伯努利分布:只有两种结果,比如"是铜/不是铜"。参数p表示"是铜"的概率。

二项分布:抛n次硬币,正面朝上的次数服从二项分布。

正态分布:自然界中最常见的分布------人的身高、测量误差、甚至营养膏的灌装重量误差,都近似正态分布。它的形状像一口钟,中间高两边低。

陆鸣学到正态分布的时候,想起了他的垃圾。他在垃圾堆里翻了两年的铜零件,如果他把每天捡到的铜零件的数量画成一张图,大概率是一口钟------大多数时候捡到3-5个,偶尔捡到10个(运气好),偶尔捡到0个(运气差)。这就是正态分布。

"分布。"他念着这个词,像在嚼一颗没味道但有点韧性的糖。

世界不是确定性的。任何事都有概率。他能做的,不是消除不确定性------那不可能------而是利用概率,做出最优的决策。

盒子上出现了一个总结页面:

"第二章完成情况:概率公理(100%),随机变量(85%),常见概率分布(70%),条件概率与贝叶斯定理(95%)。"

"综合评分:B-。"

"下一章预告:线性代数进阶------矩阵、线性变换、特征值与特征向量。这些是理解神经网络的基础。"

陆鸣看了一眼那个"B-",嘴角不自觉地撇了一下。他从来没拿过B-。在净土地的垃圾分拣考核里,他的评级一直是D(不合格)或F(严重不合格)。一个B-,对他来说,已经是人生巅峰了。

但他没有得意。因为他知道,真正难的东西还没开始。

"继续。"他对盒子说。

"休息一下。"盒子回复,"人类需要间歇性学习。建议用户进食、饮水、活动。15分钟后继续。"

陆鸣愣了一下。这个AI盒子,居然在教他"如何学习"。

他站起来,伸展了一下僵硬的腰背,往配给站的方向走去。路过垃圾堆场的时候,他看到那台分拣机器人还安静地站在原地,绿色的指示灯有节奏地闪烁着。它的旁边,几个居民正在小心翼翼地捡起被挤出来的营养膏碎屑,看能不能收集起来。

机器的屏幕上,不知何时出现了一行小字:

"待命。等待'食物'定义更新。"

陆鸣盯着那行字看了几秒钟,然后继续往前走。

他觉得,这台机器的故障,可能不仅仅是"先验概率被重置"。它真正的问题,是从来没有人教过它,"食物"不仅仅是一个类别标签,它是一种和"生存"直接相关的东西。当你的肠子因为两天没吃东西而绞痛的时候,你再也不会把一管营养膏归类为"铝塑复合膜包装的未知膏状物"。

但你要怎么把这些告诉一台机器?

他口袋里的盒子又震了一下。他掏出来一看,是一行新消息,红色的:

"警告:净土地西南方向检测到新的数据风暴。规模是昨夜的3倍。预计到达时间:45分钟后。"

"建议用户尽快完成线性代数基础,以便在下一波风暴中生成有效的数据屏障。"

陆鸣握紧了盒子。

45分钟。

他不知道线性代数是什么,但他知道,如果45分钟后他还学不会,他和净土地上三千多人,可能连"概率"都没有了。

他把盒子的音量调到最大,一边走一边开始播放第三章的第一节。

"线性代数:从向量到矩阵。"

"向量是一维的数字列表。矩阵是二维的数字表格------多行多列。"

"矩阵可以表示一个系统:比如,一个分拣机器人对不同物体的分类决策。"

"矩阵乘法:行与列的点积。"

他的脑子和他的腿一起在跑。

身后,灰色的雾墙再次从地平线上升起,比昨天更大、更厚、更凶猛。

但他没有回头。

他向前跑,耳朵里塞满了公式和定义,像一条被知识追赶的、无处可逃的鱼。

前方的路很长。

但他已经开始游了。


第二章 · 完

本章知识清单

  1. 概率的基本概念:概率是0-1之间的数字,表示事件发生的可能性

  2. 条件概率:P(A|B),在B条件下A的概率

  3. 贝叶斯定理:P(A|B) = P(B|A)P(A)/P(B),用于更新信念

  4. 先验概率 vs 后验概率:先验是初始信念,后验是更新后的信念

  5. 概率公理:非负性、归一性、可加性

  6. 随机变量:将随机事件映射为数字的函数

  7. 常见概率分布:均匀分布、伯努利分布、二项分布、正态分布

  8. 概率在AI决策中的应用:分类问题本质上是在计算后验概率

思考题(供读者自测):

  1. 在净土地垃圾堆中,铜零件的先验概率是0.2。如果你发现一个零件不仅颜色是黄铜色,而且重量异常重(铜的密度大),这个新的证据会如何改变后验概率?试着写出引入两个条件后的贝叶斯公式。

  2. 正态分布为什么在自然界和AI中如此普遍?它与"中心极限定理"有什么关系?

  3. 如果你要设计一个AI系统来识别净土地居民的"饥饿程度"(低、中、高),你会用什么特征作为输入?如何用概率来表示输出的不确定性?

下一章预告:第三章《矩阵与防线》

陆鸣将学习矩阵、线性变换、特征值与特征向量。与此同时,数据风暴已经逼近净土地的电磁屏障。他需要用矩阵来构建一个临时的数据防御矩阵,将风暴偏转。而在学习过程中,他会发现"天工"的底层架构本质上是一个超大规模的线性代数运算器------理解线性代数,就是理解"天工"的语言。

相关推荐
j_xxx404_1 小时前
Linux:静态链接与动态链接深度解析
linux·运维·服务器·c++·人工智能
档案宝档案管理1 小时前
无缝对接财务软件,实现会计档案全流程自动化流转
大数据
收获不止数据库1 小时前
达梦9发布会归来:AI 时代,我们需要一款什么样的数据库?
数据库·人工智能·ai·语言模型·数据分析
hhb_6182 小时前
AI全栈编程生存指南
人工智能
AI-Frontiers2 小时前
transformer进阶之路:#2 工作原理详解
人工智能·深度学习·transformer
juniperhan2 小时前
Flink 系列第21篇:Flink SQL 函数与 UDF 全解读:类型推导、开发要点与 Module 扩展
java·大数据·数据仓库·分布式·sql·flink
科研前沿2 小时前
2026 数字孪生前沿科技:全景迭代报告 —— 镜像视界生成式孪生(Generative DT)技术白皮书
大数据·人工智能·科技·算法·音视频·空间计算
Leinwin2 小时前
双城奔赴,智领未来:领驭科技亮相2026微软AI Tour上海·香港站
人工智能·科技·microsoft
洋子2 小时前
Yank Note 系列 13 - 让 AI Agent 进入笔记工作流
前端·人工智能