深度神经网络为何成功？其中的过程、思想和关键主张选择

xw5556662023-10-26 8:07

LeNet（1989）在小数据集上取得了很好的效果，但是在更大、更真实地数据集上训练卷积神经网络地性能和可行性还有待研究。

与神经网络竞争的是传统机器学习方法，比如SVM（支持向量机）。这个阶段性能比神经网络方法好。

机器学习研究人员的观点：相信机器学习既重要又美丽，用优雅的理论证明各种模型的性质。

计算机视觉的研究人员的观点：推动领域进步的是数据特征，而不是学习算法。他们相信，从对最终模型精度的影响来说，更大或更干净的数据集或是稍加改进的特征提取方法，比任何学习算法带来的进步大的多。

另一种观点：观察并设计图像特征的提取方法。主要工作是设计一套新的特征函数，改进结果并撰写论文，代表性成果有：SIFT、SURF、HOG等。

还有一组研究人员（Yann LeCun, Geoff Hinton, Yoshua Bengio, Andrew Ng, Shun-ichi Amari, and Juergen Schmidhuber）的观点：认为特征本身应该被学习。有趣的是，在AlexNet网络的底层,模型学习到了一些类似于传统滤波器的特征提取器。

最终的突破出现在2012年，成功可以归因于两个关键的因素：数据和硬件。2009年，ImageNet有100万个样本，1000个不同类别的对象。硬件上GPU的发展，庞大的GPU数量远远快于CPU的计算能力，GPU的带宽比CPU快10倍。

在这个思路上一路狂奔，出现了ChatGPT（2022），数据量超过万亿（数据），上万的GPU并行计算（算力），千亿甚至万亿参数的神经网络（算法），在今天，处于全球领先地位（the state of art），具有强大的引领效应。

在这个思路上，产生了transformer、bert等等优秀的深度学习模型类，ChatGPT则是一个现象级应用，吸引了大量关注，就如同阿尔法狗（AlphaGo）一样，2017年在围棋上打败柯洁。