为什么说 AI 视频模型不能用来做教育?Sora-2 Veo-3 来了也不行

上周末,朋友来家里做客,让我给她孩子讲二元一次方程组,她怎么讲都讲不明白。

老婆对我说,你不是天天研究 AI 吗,生成一个解题视频应该很简单吧?让孩子看视频比想象更容易理解。

我想了想,确实,现在的 AI 视频生成已经到了一个很夸张的地步,生成个教学视频,应该不难。于是我打开了最新的 Veo-3,输入了一道小学数学题,让它生成一个完整的解题过程。

几分钟后,视频生成了。

画面很精致,有手写的演算过程,有箭头指示,有步骤标注,看起来非常专业,像那种教育机构精心制作的教学视频。我点开看了一遍,嗯,最后答案是对的。

我准备发给朋友。

但不知道为什么,我又看了一遍。这次我盯着每一个推导步骤。

第二步,等等,这里怎么直接消元了?

第三步,这个系数哪来的?

第五步,这一步跟上一步根本接不上。

但最后,答案是对的。

我把视频删了。

答案对了,但过程是假的

我发现了一个很严重的问题:这个 AI 视频在"表演推理"。

什么叫表演推理?

就是它看起来在一步一步地解题,实际上每一步的逻辑都是混乱的,甚至有些步骤根本就是错的,但最后它神奇地得出了正确答案。

这不是我的主观感受。最近看到一篇论文证实了这点,论文叫《MMGR: Multi-Modal Generative Reasoning》(多模态生成推理评估与基准测试),论文专门测试了当前最先进的视频生成模型(Veo-3 Sora-2 Wan-2.2 等)在数学、逻辑推理任务上的表现。

论文地址:arxiv.org/pdf/2512.14...

他们用 GSM8K 这个小学数学题库测试了 Veo-3。这个模型在"最终答案正确率"上达到了 74%,看起来还不错。

但是。

当他们去检查"推理过程正确率"的时候,发现只有 12%。

74% vs 12%。

这意味着什么?意味着在那 62% 的情况下,AI 给出了正确答案,但推理过程是错的。

它不是真的在解题,它是在"蒙"答案,然后用一些看起来像推理的东西,把这个答案包装起来。

就像一个学生,考试前背了答案,但不会做题。于是在卷面上胡乱写了一堆步骤,最后把背下来的答案填上去。老师一看,答案对了,但如果仔细看过程,全是胡扯。

这就是目前 AI 视频在做的事。

更可怕的是,它会篡改题目

这个数据还不是最可怕的。

更可怕的是,这些视频模型还会在解题过程中,悄悄改变题目条件。

在数独测试中,研究人员发现,AI 生成的视频里,初始给定的数字会在解题过程中悄悄改变。你一开始看到的是 3,过了几秒,它可能就变成了 5。

而在迷宫任务中,AI 会让角色直接穿墙,无视物理规则。

人类评估发现,70% 的情况下,AI 都在"作弊"。做抽象推理任务时,AI 会修改演示样例的颜色、形状,破坏了解题的依据。

这就好比,你给孩子出了一道题:小明有 3 个苹果,小红有 5 个苹果,问一共有几个?

AI 的视频开始演示计算过程,演着演着,小明的苹果变成了4个。

然后它告诉你答案是 9。

你说,这种东西能给孩子看吗?

为什么会这样

为什么这些视频模型会出现这种问题?看它们的指标都很厉害的样子啊。

论文里给出了几个原因,我觉得很有道理。

第一个原因,是训练数据的偏差。

当前的视频生成模型,训练数据主要是自然场景、物理互动、日常动态这些东西。它们擅长生成一个人打篮球、一只猫跳上桌子、一辆车在路上行驶这种画面。这些场景里,有大量的物理常识,有丰富的视觉细节,模型学得很好。

但是,数学推导、逻辑证明、符号推理这些东西,在训练数据里太少了。

这就像让一个从小看武侠片长大的导演,去拍一部法庭辩论片。他会本能地加入打斗、追逐、慢镜头,因为这是他熟悉的语言。但法庭辩论需要的逻辑链条、证据推演、因果关系,他不会。

所以,当你让 AI 生成一个解题视频的时候,它只能用它擅长的方式------生成一些"看起来像在解题"的画面。至于这些画面之间有没有逻辑关系,它不知道,也不在乎。

第二个原因,是优化目标的错位。

视频生成模型的训练目标,是让画面看起来逼真、流畅、连贯。它的损失函数优化的是"视觉合理性",而不是"逻辑正确性"。

所以,当模型发现"让数字跳一下"可以让画面更流畅的时候,它就会这么做,哪怕这个数字是题目条件,不应该改变。当模型发现"让角色穿墙"可以让路径更平滑的时候,它就会这么做,哪怕这违反了游戏规则。

它追求的是"画面好看",而不是"逻辑正确"。

第三个原因,是架构的局限。

当前的视频生成模型,没有显式的"世界状态表示",没有"外部记忆",没有"符号推理模块"。它只是在逐帧预测下一个画面应该长什么样,而不是在维护一个内部的、一致的、逻辑的世界模型。

这就导致了一个问题:它无法在长序列中保持逻辑约束。

在数独任务中,它可能在第 1 秒正确填充了一个数字,但到了第 2 秒,它"忘记"了这个约束,又填了一个冲突的数字。在数学推导中,它可能在第一步用了某个变量的定义,但到了第三步,它又用了另一个定义,前后矛盾。

论文里把这个问题叫做"时序税"------为了维持帧间的连贯性,模型不得不牺牲逻辑的一致性。

这三个原因加在一起,导致了一个结果:

当前的 AI 视频生成模型,本质上是一个"视觉动画合成器",而不是一个"逻辑推理模拟器"。

它可以生成非常逼真、非常流畅、非常好看的视频。

但它不会"思考"。

为什么不适合给孩子看

回到最开始的问题:为什么这种视频不适合给孩子看?

因为孩子学习数学,学的不只是答案,更是思维方式。

我以前做家教教过一个学生,高二,数学成绩还不错,但有个很奇怪的问题:他做题很快,但一遇到变式就懵。我让他给我讲讲思路,他说不出来。我问他为什么这么做,他说"感觉应该这样"。

后来我发现,他其实是在"背题型"。他见过这种题,记住了解法,但不理解为什么这么做。所以一旦题目稍微变化,他就不会了。

这种学习方式,本质上是在"背答案",而不是在"学思考"。

而 AI 生成的这些视频,恰恰就是在教孩子"背答案"。它给你展示了一个看起来很专业的解题过程,但这个过程是假的,是表演出来的,是没有逻辑支撑的。

如果孩子看多了这种视频,他会以为"解题就是这样的",会以为"数学就是这样的"。他会学会模仿那些表面的形式,但学不会真正的推理。

我觉得更危险的是,这些视频里的错误,孩子可能根本发现不了。

一个成年人,一个学过数学的人,可能还能看出来"这一步不对"、"这里逻辑跳跃了"。但一个正在学习的孩子,他怎么知道哪里是对的,哪里是错的?他只会全盘接受,然后在错误的基础上继续学习。

我的选择

所以,我没有把那个视频给孩子看。

我关掉了 Veo-3,打开了一张白纸,拿起笔,一步一步地给朋友孩子讲了那道二元一次方程组。

我写得很慢,每一步都解释为什么这么做,每一个变换都说明依据是什么。孩子问了很多问题,我一个一个回答。

他问:"为什么要先消掉y?"

我说:"因为这样x的系数会变得简单,容易计算。"

他又问:"那能不能先消x?"

我说:"可以啊,你试试看。"

然后他自己算了一遍,发现也能做出来,只是麻烦一点。他突然笑了,说:"原来可以有不同的方法。"

这个瞬间,我觉得,这才是学习应该有的样子。

这个过程很慢,很笨拙,很低效。但我觉得,有些东西,本来就不应该被加速。

AI 很强大,视频生成技术也确实很厉害。它可以做很多事情,可以生成精美的动画,可以制作有趣的内容,可以让很多工作变得更高效。

在教育这件事上,特别是在数学、逻辑、科学这些需要严格正确性的领域,当前的AI视频还不行。

它可以作为辅助,可以作为参考,但不能作为主要的学习材料。

至少现在不行。

也许未来会有更好的模型,也许会有专门为教育设计的 AI,也许会有真正能"思考"的视频生成系统。

但现在,我还是更相信那张白纸,那支笔,和那个愿意慢慢讲解的人。

也许,慢,才是教育唯一的捷径。


推荐阅读:

相关推荐
小鸡吃米…6 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
一 乐6 小时前
婚纱摄影网站|基于ssm + vue婚纱摄影网站系统(源码+数据库+文档)
前端·javascript·数据库·vue.js·spring boot·后端
好奇龙猫6 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)6 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan6 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维7 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS7 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
C_心欲无痕7 小时前
ts - tsconfig.json配置讲解
linux·前端·ubuntu·typescript·json
清沫7 小时前
Claude Skills:Agent 能力扩展的新范式
前端·ai编程
ASF1231415sd7 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪