多模态是假的?李飞飞团队发现AI根本"看不见",靠海市蜃楼效应编造

3 月 30 日,斯坦福大学李飞飞团队发布了一篇论文《海市蜃楼:视觉理解的幻象》。

研究发现,GPT-5、Gemini 、Claude 这些大模型根本"看不见"。

研究团队在涵盖医疗与通用场景的 6 个基准测试中,测试了 GPT-5.1、Gemini-3-Pro、Claude Opus 4.5 以及 Gemini-2.5-Pro。

然后悄无声息地移除了所有图片,照片、扫描报告或 X 光片等。

没有警告,也没有修改提示词。

模型竟然完全没有察觉。

它们依然在详细地描述图片内容、诊断病情、书写完整的推理逻辑,且准确率依然保持在 70% 到 80%。

但这些全靠识别根本不存在的图像而生成。

论文将其称为 "海市蜃楼效应"(Mirage Effect)。

研究团队认为,这比"幻觉"(Hallucination)更可怕。

幻觉是针对真实输入编造出错误细节。

而海市蜃楼,则构建出一整个虚假的现实,并自信地以此进行推理。

在测试中,模型构造出了虚构的 X 光片、描述了假的结节、诊断了疾病------却全都是靠文本模式生成的。

但这还不是最可怕的。

他们训练了一个"超级猜测器"------一个仅有 30 亿参数的纯文本模型。

它零视觉能力。

在最大规模的胸部 X 光基准数据集(69.6 万个问题)上对其进行了微调,且将图片全部移除。

结果它打败了 GPT-5、打败了 Gemini、打败了 Claude。

甚至打败了真正的放射科医生。

在隐藏的测试集上排名第一------而它从未看过任何一张 X 光片。

它生成的推理逻辑,与真实的视觉分析毫无区别。

还有更让你细思极恐的地方------

当模型"虚假观看"医疗影像时,它们的海市蜃楼式诊断会严重偏向于最致命的病症。

ST段抬高型心肌梗死(STEMI)、黑色素瘤、癌。

------来自根本不存在的图像,做出危及生命的诊断。

要知道,每天有 2.3 亿人在 ChatGPT 上询问健康问题。

研究团队还发现了一个反常现象,即告诉模型"这里没有图片,随便猜",性能会下降。

而当悄悄移走图片却让它误以为图片存在时,性能反而会保持高位。

也就是说,模型进入了 "海市蜃楼模式"后,它不知道自己是"瞎"的。而且在它不知道自己看不见的时候,表现反而更好。

当斯坦福应用他们的清理方法(B-Clean),去处理现有基准测试时,74%-77% 的测试样本被剔除了。

四分之三的"视觉"基准测试,根本不是在测试视觉。

也就是说,我们看到的所有排行榜、所有"多模态突破"、所有基准测试分数,都是建立在海市蜃楼之上的。

多模态概念还讲得下去么?

论文链接 arxiv.org/pdf/2603.21...

其他阅读:

比 Claude Code 便宜一半!Codex 国内部署使用教程,三种方法任选一!

Claude Code Skills到底怎么用?大家看这篇文章就够了

相关推荐
用户6757049885021 分钟前
AI开发实战2、只有 1% 的人知道!这样给 AI 发指令,写出的前端项目堪比阿里 P7
后端·aigc·ai编程
用户67570498850224 分钟前
AI开发实战1、手摸手教你一行代码不写,全程AI写个小程序——前端布局
后端·aigc·ai编程
wq_2 小时前
从 Framework 到 Harness
aigc·ai编程
shining2 小时前
AI时代,这些名词你真的都了解吗?(上)
aigc·ai编程
宝桥南山3 小时前
Azure - 尝试一下使用Azure Developer CLI去部署应用程序
microsoft·ai·微软·c#·aigc·azure
MY_TEUCK12 小时前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
爱吃的小肥羊20 小时前
我整理了 14 种 GPT-Image-2 的神仙玩法,大家看看效果怎么样!
aigc·openai
刘 大 望21 小时前
RAG相关技术介绍及Spring AI中使用--第三期
java·人工智能·后端·spring·机器学习·ai·aigc
阿杰学AI21 小时前
AI核心知识132—大语言模型之 AI for Science(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ai for science·ai4s
用户5191495848451 天前
Windows Hypervisor 分区漏洞利用与 IOCTL 通信测试工具
人工智能·aigc