如何评价深度学习相关顶级期刊论文难复现的问题?

如果你问我:

深度学习顶会、顶刊最大的学术问题是什么?

我可能不会回答"创新不足"。

也不会回答"刷榜"。

而是:

越来越难复现。

而且这个问题比很多人想象得更严重。

刚接触科研的时候,我有一个天真的想法。

论文发表了。

代码公开了。

数据集公开了。

那复现应该不难吧?

后来真正去复现才发现:

完全不是这么回事。

论文里写:

We train the model using standard settings.

看到这句话我就头疼。

什么叫standard?

学习率多少?

warmup多久?

batch size多少?

随机种子是什么?

数据增强顺序是什么?

很多关键细节根本没写。

结果论文里95%的精度。

自己跑出来89%。

然后开始怀疑人生。

很多非AI领域的人可能不理解。

为什么复现这么难?

因为深度学习有个特殊现象。

很多结果不是一个因素决定的。

而是几十个因素共同决定的。

例如:

模型结构。

初始化方式。

数据清洗。

随机种子。

超参数。

训练轮数。

硬件环境。

CUDA版本。

PyTorch版本。

其中任何一个变动。

结果都可能发生变化。

我曾经看过一个特别经典的例子。

同一个模型。

同一份代码。

不同随机种子。

最终结果差了将近1%。

对于普通人来说:

1%不大。

但对于顶会论文来说:

有时候0.3%就足以决定能不能发表。

这就很尴尬了。

还有一个现实问题。

很多顶会论文其实是:

实验室资源的胜利。

不是算法本身的胜利。

举个例子。

论文写:

我们训练了200轮。

实际上背后可能是:

64张GPU。

连续训练两周。

几百万的算力成本。

普通研究生看到代码以后。

拿一张4090。

甚至一张3060。

根本复现不了。

不是能力问题。

是资源问题。

更有意思的是。

有时候作者自己都未必能完全复现。

这不是开玩笑。

很多做过深度学习的人都知道。

过了半年。

重新拉代码。

重新配环境。

结果都可能不一样。

所以现在很多顶会开始强调:

Code

Data

Checkpoint

Environment

全部公开。

原因就是大家被复现问题折磨太久了。

不过我觉得难复现不一定全是坏事。

因为这里面其实有两种情况。

第一种。

故意不公开细节。

这种确实应该批评。

因为科学研究本来就强调可验证。

第二种。

问题本身太复杂。

导致完全复现几乎不现实。

例如:

Neural Information Processing Systems

International Conference on Machine Learning

International Conference on Learning Representations

很多工作涉及超大规模训练。

别说普通学生。

很多高校实验室都跑不起。

这种情况下。

复现难度本身就是研究对象的一部分。

我觉得更值得警惕的是另一件事。

现在越来越多论文开始追求:

排行榜第一。

Benchmark提升0.2%。

0.3%。

0.5%。

于是大量精力投入到调参。

工程优化。

训练技巧。

最后论文能发。

但真正的科学发现反而变少了。

有时候一个模型:

结构创新占5%。

调参占95%。

这种工作即使复现成功。

学术价值也未必有想象中那么高。

所以如果评价深度学习论文难复现的问题。

我的观点是:

它确实是当前AI科研最大的痛点之一。

但根源不只是作者不公开代码。

而是深度学习已经逐渐从"理论科学"走向了"算力密集型工程科学"。

当一个结果同时依赖算法、数据、硬件、工程技巧和训练资源时,复现自然会越来越困难。

从长期看,我反而觉得未来真正有价值的论文,不一定是榜单第一的论文。

而是那些:

别人看得懂。

别人跑得动。

别人复现得出来。

并且依然成立的论文。

这样的成果,往往比多提升0.3%的SOTA更经得起时间考验。

相关推荐
Lihua奏2 天前
从单核到多核:CPU为什么不能再只靠提频变快
深度学习
拾年2752 天前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习
饼干哥哥6 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康8 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康9 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai415 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia115 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC15 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java15 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba15 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习