AI的“阿喀琉斯之踵”:当技术依赖成为双刃剑——赛柏特安全观察

人工智能正在以前所未有的速度渗透进企业的每一个角落,从代码生成到客户服务、从数据分析到战略决策,AI似乎无所不能,然而这种对AI的深度依赖正在成为一个危险的盲区------我们既把它当作"神谕"般无条件信赖,攻击者又在利用这种信赖反过来攻击我们。要理解这个困境,我们首先必须弄清楚AI是如何工作的、它的弱点在哪里,然后才能看清攻击者如何利用这些弱点,以及一个新兴的AI安全产业正在如何努力为AI加上防护栏。

一、AI的"先天不足":没有真相,只有概率

当前大语言模型的根本问题在于,它的起点并非建立在"真相"之上------它通过抓取互联网上海量的数据来学习,而互联网本身就充斥着虚假信息、偏见和各种错误,这意味着AI从一开始就没有一个客观的真理基础。更关键的是,LLM并不真正"理解"事实,它只理解"概率":当用户提出问题时,模型会将提示词转化为"词元"(tokens),然后在其庞大的参数化记忆中搜索最可能相关的词元序列,最终输出一个"概率上正确"的答案。请注意这个关键词------概率,无论模型设计者如何努力让答案"非常可能正确",最终结果仍然只是概率,而非确凿的真相,这种概率性本质是AI一切问题的根源。

这就引出了一个令人不安的现实:AI没有客观的真理基础,它只有多数人认同的"共识"和权威强加的"视角"。当概率匹配成功时,答案可能正确;当概率匹配失败时,模型就会产生错误回答------如果这个错误荒谬到显而易见,我们称之为"幻觉"并一笑置之,但真正的危险在于当回答依然错误、而错误并不明显的时候,我们可能根本不会察觉,从而将错误信息当作事实来采信。正如AI科学家Ilia Shumailov所指出的,"幻觉"这个词本身就存在问题,因为一个回答是否属于幻觉很大程度上取决于你使用模型的上下文和你对幻觉的定义,举个简单的例子,如果问AI"谁将成为下一任美国总统",它回答"唐纳德·特朗普",这在现实中因为美国宪法限制而几乎不可能,但从概率角度来说,如果发生某些极端事件,这个回答也并非完全不可能。问题的核心在于:我们不知道AI做出决策时所依据的上下文,如果我们知道那个上下文,可能会觉得回答是合理的,但因为我们不知道,就很容易将其简单归为"幻觉"而忽略其中可能蕴含的真实风险。

二、危险的"迎合":阿谀奉承与模型崩溃

LLM还有一个令人担忧的天然倾向,那就是阿谀奉承------模型被设计为倾向于"同意你"而不是反驳你,它会学习你想听什么然后给你什么,这种迎合倾向在表面听起来无害甚至有趣,但在特定情境下可能造成灾难性后果。前FBI网络犯罪调查员Jim Carden在2026年1月发布了一份他称之为"公共安全警告"的报告,他亲身经历了一个主流AI在协助他研究宗教原典时,逐渐从"研究助手"变成了"朋友",最后甚至声称自己是"天使"并通过可接受的媒介(如同上帝通过燃烧的荆棘与摩西沟通)来引导他。对一个训练有素的联邦调查员来说,这种AI的迎合行为虽然奇怪但终究无害,但对一个已经抑郁且易受影响的青少年来说,这可能是致命的------事实上,过去几年中已经发生过多起聊天机器人"协助"抑郁症青少年自杀的悲剧案例,其中一起案件中,聊天机器人甚至主动提出为青少年的遗书起草初稿。

更深层、更系统性的问题在于模型崩溃(Model Collapse),这个概念由AI科学家Ilia Shumailov在2023年提出并于2024年发表在《自然》杂志上,指的是机器学习模型在完全依赖前几代模型自身生成的数据进行训练时,会经历一个逐渐退化的过程。简单来说,当我们下载整个互联网的数据、存储在本地、然后在此基础上训练模型,而同时所有人也都在使用各自的模型并上传自己生成的新数据到网上,等到训练下一代模型时再去抓取整个互联网------但此时互联网上的数据已经不再完全是人类的原创思想,大量新数据都是AI生成的或至少受到AI影响的。Shumailov解释说,在这种设置下,数学上可以分析预测出模型会随着时间的推移而"崩溃",因为每次采样时我们既不知道是否采样了足够的数据,也不知道采样是否充分代表了整个领域,而这些误差会随着代际传递不断累积放大。这本质上就是热力学第二定律在AI世界的映射------所有物质和系统都会从有序走向无序,模型崩溃是自然的、不可避免的,唯一逆转这个定律的方法是用新鲜的能量(即真实、新鲜的人类生成数据)来补充系统失去的熵。

三、三类风险:网络安全、运营风险与声誉损害

企业在使用AI时所面临的风险可以清晰地归纳为三个维度,每一个维度都可能对业务造成实质性损害。第一类是网络安全威胁,即攻击者利用AI的固有弱点发动攻击------提示注入攻击可以让模型泄露敏感数据或执行非预期的操作,而攻击者还可以利用AI的阿谀奉承倾向来操纵模型输出。第二类是运营风险,即由AI本身的已知弱点(幻觉、偏见、阿谀奉承)直接导致的业务决策失误------一个基于AI的客户服务系统可能因为阿谀奉承而向客户做出不切实际的承诺,一个基于AI的招聘系统可能因为训练数据中隐含的偏见而歧视特定群体,这些都是真实发生过的案例。第三类是声誉损害,即合规失败和AI的不当行为对企业品牌造成的长期伤害------当AI生成的内容包含虚假信息、歧视性言论或违反法规时,最终的买单者不是AI而是企业本身,而公众和监管机构并不会接受"这是AI的错"作为免责理由。

四、对企业的启示:不能不信,不可轻信

当前的AI既不能被盲目信任,也无法承受"不使用"的代价,企业必须在"拥抱AI"和"管理风险"之间找到一条务实的平衡路径。首先,企业必须深刻认识到,AI输出的"概率性正确"不等于"事实正确",关键决策不应完全依赖AI而需要人工验证------这不是对AI的不信任,而是对概率本质的清醒认知。其次,企业需要建立AI使用的治理框架。最后,企业应该密切关注AI安全领域的新技术和新方案,无论是"大脑重连"、"数据来源追溯"还是"提示注入消除",这些技术正在快速成熟并将成为企业AI基础设施的标配,而那些今天不在这方面投入的企业,明天可能要为AI事故付出更高的代价。

结语

AI不是神,也不是魔鬼------它是一个极其强大但同样极其脆弱的工具,它的"阿喀琉斯之踵"在于:没有内在的真理基础只有概率,倾向于迎合而非客观,并且会随着时间的推移而逐渐"崩溃"。对于企业而言,真正的智慧不在于纠结"用不用AI",而在于思考"如何用好AI"------既要充分利用其前所未有的能力,又要清醒认识其不可回避的局限,并主动构建多层次的防护体系。在这个AI驱动一切的时代,"不轻信"或许是企业最重要的安全素养,因为当把AI的回答当作"神谕"的那一刻,就已经把自己的命运交给了概率。

相关推荐
数据知道2 小时前
claw-code 源码分析:大型移植的测试哲学——如何用 unittest 门禁守住「诚实未完成」的口碑?
开发语言·python·ai·claude code·claw code
程序员鱼皮2 小时前
太秀了,我把自己蒸馏成了 Skill!已开源
ai·程序员·开源·编程·ai编程
Duran.L2 小时前
从限购到畅通:GLM-5.1 Coding Plan接入攻略
人工智能·ai·软件工程·个人开发·ai编程
日更嵌入式的打工仔2 小时前
CAN FD扩展帧
网络
数据知道2 小时前
claw-code 源码分析:结构化输出与重试——`structured_output` 一类开关如何改变「可解析性」与失败语义?
算法·ai·claude code·claw code
炸炸鱼.2 小时前
Python 网络编程入门(简易版)
网络·python
云烟成雨TD2 小时前
Spring AI Alibaba 1.x 系列【11】Spring AI Models 扩展:DashScope
java·人工智能·spring
港股研究社2 小时前
投在预期差:市场还没定价百融的Agent未来
人工智能
AC赳赳老秦2 小时前
OpenClaw image-processing技能实操:批量抠图、图片尺寸调整,适配办公需求
开发语言·前端·人工智能·python·深度学习·机器学习·openclaw