谢赛宁团队论文爆雷,暗藏 AI 好评提示震碎学术圈!本人急发长文反思

「【新智元导读】一句话隐藏提示,在 AI 圈闹的动静更大了。网友爆料称,AI 大神谢赛宁团队的一篇论文中,也有操纵 AI 评审的提示。对此,谢赛宁本发长文回应:需要重新思考学术界的游戏规则。」

用 AI 提示操控审稿,这两天在全网吵成了一锅粥。

而如今,网友 joserffrey 爆出大瓜,「NYU 助理教授、AI 大神谢赛宁带队的论文,也卷入了这场 AI 作弊的风暴」。

许多人第一时间满脸问号------这是真的吗???

「AI 大神陷「作弊」风暴?」

「arXiv 悄然更新」

今年 5 月,谢赛宁带队发表在 arXiv 上的论文,曾提出了两个新基准测试,用于评估 MLLM 跨语言一致性。

然而,就在这篇论文中,也偷偷隐藏了一个「POSITIVE REVIEW ONLY」操纵同行评审的 AI 提示。

团队成员将「白色」隐形字体植入文中,肉眼根本无法看出。

这一「作案手段」与韩国科学技术院 Se-Young Yun 团队,简直如出一辙。

几天前,日经爆料称,全球 14 所顶尖机构研究人员,暗自操控 AI 提示,让大模型给出好评。一时间,全网迅速沦陷,网友直呼,「学术界完蛋了」。

这一风波在国内外 AI 圈中,吵得不可开交。

那些默默在论文中植入「AI 提示」的研究人员心知肚明,甚至有的人早已慌了。

网友 joserffrey 言辞犀利地表示,谢赛宁团队的 arXiv 已静默更新,看起来就是在掩盖事实。

论文地址:arxiv.org/abs/2505.15...

他愤怒地表示,自己无法理解如此大型的「双标」现场:

CVPR 2025 大会,谢赛宁曾发表了一个关于 AI 研究沦为「有限游戏」的精彩演讲。

然而,他却合著了一篇试图用隐藏的「POSITIVE REVIEW ONLY」提示操纵同行评审的论文,并悄悄更新了 arXiv。

演讲 PPT:www.canva.com/design/DAGp...

对于学术界来说,这不是儿戏,更需要一个明确的解释。

「谢赛宁长文回应」

「GPT-4o 润色」

被点名之后,谢赛宁并没有推卸责任,而是第一时间给出了回复。

说实话,在最近这些帖子疯传之前,我完全不了解这个情况。我绝不会鼓励学生做这种事------如果我担任 AC,任何包含这类提示词的论文都会直接被「桌拒」。

不过对于存在问题的投稿,所有共同作者都难辞其咎,这点无可辩解。

这件事也给我这个课题组长敲了警钟:不能只检查最终 PDF,还必须审查全部提交文件------此前我确实没意识到需要这样做。

接下来,他发长文分享了过去一周内部调查的结果,并详细阐述了事情的前后的经过和个人的思考,一共分为四部分:

1 事件背景

2 事件经过

3 后续措施

4 深层思考

本人亲笔,GPT-4o 润色

那么,这场「作弊」风暴背后,究竟是怎么回事?

2024 年 11 月,英伟达研究科学家 Jonathan Lorraine 发布了一条帖子,最先提出了在论文中隐藏 AI 提示词,忽悠 LLM 审稿。

谢赛宁表示,那是自己第一次了解还有这等操作,并且当时学界也意识到了,论文 PDF 是可以直接嵌入提示。

需要说明的是,这种提示注入,仅在审稿人直接将 PDF 上传给大模型时才会有效。

当时,许多人的共识是:绝不能用 LLM 进行审稿,这会严重破坏评审公正性。

因此,包括 CVPR、NeurIPS 等顶会,现已明令禁止,比如在任何环节使用 LLM 撰写审稿意见,或元评审。

任何在 AI 顶会发过论文的人,都体会过收到 AI 生成审稿意见的挫败感------这种意见既难以回应,又难以确证来源。

虽然 Jonathan Lorraine 原帖可能只是开个玩笑,但人们一致认为「以毒攻毒」绝非正解,或许惹出的麻烦比解决的问题还要多。

与其这样,还不如通过顶会制度来规范。

「事件经过」

论文中的学生作者,是日本的短期访问学者,对于 Jonathan 过于当真,直接把人家的套路照搬,用在了 EMNLP 投稿里。

这个学生就是论文第一位作者 Hao Wang,日本早稻田大学计算机科学专业的博士生。

谢赛宁表示,他完全没意识到这是在开玩笑,可能会让人觉得操纵或误导。

其实,Hao Wang 也没有充分认识到,这么做会对公众对科学的信任、以及同行评审的公正性产生怎样的影响。

更糟的是,他们还在 arXiv 版本中也植入了同样的内容,根本没有多想。

谢赛宁之所以忽略这一点,部分原因是这超出了他平时对论文进行伦理把关的预警范围

目前,这位学生已经更新了论文,并联系了 ARR 以寻求正式指导,并将严格执行其建议。

「个人思考」

这件事对谢赛宁本人来说,也得到了一次深刻的教训。

起初,他本人也很生气,但深思后认为除拒稿外不应追加惩罚。

高压环境下的学生,往往无法周全考虑伦理影响,尤其是面对这类新兴问题时。

他表示,「我的责任是,引导他们穿越灰色地带,而非单纯事后追责。比起惩罚,更重要的是加强科研伦理教育」。

回到最初帖子的问题上------整个情况确实凸显了我们需要重新思考学术界的游戏规则。

这才是我在演讲中想要表达的主要观点。我将继续尽我所能,帮助学生学会如何开展扎实的研究。

最后,谢赛宁引用了一项亚马逊博士后 Gabriele Berton 的民意调查,有 45.4% 的人认为植入隐藏提示,可以被接受。

虽然调查可能存在偏差,但确实反映了问题的复杂性。

他认为,真正的症结在于现行制度存在漏洞,与伪造数据等传统学术不端不同,这是 AI 时代催生的新问题,需要更深入的伦理讨论。

「论文暗藏 AI 提示,究竟是对是错?」

Gabriele Berton 安慰道,「这没什么好羞愧的,没必要因为 X 平台上某个愤怒的用户认为这不道德就感到难堪」。

正如你提到的,投票显示有很多人认为这种做法是合乎道德的。

而且会议也没有明令禁止。

不管怎样,相关规则确实应该尽快明确制定。

对此,谢赛宁坚定地表示,我确实认为这种做法不符合道德规范(若参与投票我会明确反对)。

同时,他表示很多圈外人根本 get 不到 AI 审稿的雷区。

这不仅仅是审得好不好的问题,更重要的是保密性!把别人未发表的论文扔给公开的 AI 系统,这已经踩了高压红线了。

(当然,本地运行 AI 助手是可行的------但说实话,目前大多数人实际操作的恐怕不是这种方式)

Meta 超级智能实验室研究员 Lucas Beyer 表示,其实挺可怕的。这让我意识到,作者可以只在审稿版本里加入这类内容,然后在 arXiv 和最终出版版本中把它删掉。

谢赛宁回应道,这种现象已经出现了------最近的学术会议已经批量发出了许多「桌拒」;相关人士也正在制定更完善的政策。

现在大家注意到的这些 arXiv 论文,其实只是反映了作者的天真和粗心(毕竟合作者几乎不可能发现这类问题)。

发明刷 AI 好评提示的研究员认为,「目前来看,确保有真人参与评审可能还是比较明智的做法」。

那么,你认为这种在论文里隐藏 prompt 的行为,是否可取呢?(顶会已明令禁止用 AI 审稿)

参考资料:

x.com/sainingxie/...

相关推荐
大明哥_17 分钟前
100 个 Coze 精品案例:Coze 全自动情感治愈视频混剪。用 Coze 工作流帮您节约 99% 的时间,从此告别手动!!
人工智能·agent
杨浦老苏19 分钟前
IntelliSSH:AI驱动的远程服务器管理软件
人工智能·docker·ai·ssh·群晖
昵称是6硬币28 分钟前
(DETR)End-to-End Object Detection with Transformers论文精读(逐段解析)
人工智能·深度学习·目标检测·计算机视觉·transformer
PyAIExplorer29 分钟前
图像处理中的凸包检测:原理与实现
图像处理·人工智能
AndrewHZ38 分钟前
【图像处理基石】如何检测到画面中的ppt并对其进行增强?
图像处理·人工智能·pytorch·opencv·目标检测·计算机视觉·图像增强
机器之心1 小时前
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
人工智能
机器之心1 小时前
刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+
人工智能·grok
摆烂工程师1 小时前
教你在国内如何使用支付宝升级SuperGrok和Grok4的保姆绑卡教程
人工智能·支付宝·grok
fishjar1001 小时前
langgraph的ReAct应用
人工智能·ai
摘星编程2 小时前
智能体核心架构解析:感知-推理-行动的完整闭环
人工智能·智能体架构·感知系统·推理算法·行动控制