深度神经网络为何成功?其中的过程、思想和关键主张选择

LeNet(1989)在小数据集上取得了很好的效果,但是在更大、更真实地数据集上训练卷积神经网络地性能和可行性还有待研究。

与神经网络竞争的是传统机器学习方法,比如SVM(支持向量机)。这个阶段性能比神经网络方法好。

机器学习研究人员的观点:相信机器学习既重要又美丽,用优雅的理论证明各种模型的性质。

计算机视觉的研究人员的观点:推动领域进步的是数据特征,而不是学习算法。他们相信,从对最终模型精度的影响来说,更大或更干净的数据集或是稍加改进的特征提取方法,比任何学习算法带来的进步大的多。

另一种观点:观察并设计图像特征的提取方法。主要工作是设计一套新的特征函数,改进结果并撰写论文,代表性成果有:SIFT、SURF、HOG等。

还有一组研究人员(Yann LeCun, Geoff Hinton, Yoshua Bengio, Andrew Ng, Shun-ichi Amari, and Juergen Schmidhuber)的观点:认为特征本身应该被学习。有趣的是,在AlexNet网络的底层,模型学习到了一些类似于传统滤波器的特征提取器。

最终的突破出现在2012年,成功可以归因于两个关键的因素:数据和硬件。2009年,ImageNet有100万个样本,1000个不同类别的对象。硬件上GPU的发展,庞大的GPU数量远远快于CPU的计算能力,GPU的带宽比CPU快10倍。

在这个思路上一路狂奔,出现了ChatGPT(2022),数据量超过万亿(数据),上万的GPU并行计算(算力),千亿甚至万亿参数的神经网络(算法),在今天,处于全球领先地位(the state of art),具有强大的引领效应。

在这个思路上,产生了transformer、bert等等优秀的深度学习模型类,ChatGPT则是一个现象级应用,吸引了大量关注,就如同阿尔法狗(AlphaGo)一样,2017年在围棋上打败柯洁。

相关推荐
EasyGBS8 分钟前
EasyGBS的金融网点全场景智能可视化监管方案设计
大数据·人工智能
laplace012313 分钟前
第八章 agent记忆与检索 下
数据库·人工智能·笔记·agent·rag
应用市场24 分钟前
Intel Core Ultra 9做目标检测够用吗?CPU+GPU+NPU三路并发实测
人工智能·目标检测·计算机视觉
CoderOnly26 分钟前
SFT后训练32B-LLM的一些观察
人工智能·大模型
拓端研究室37 分钟前
2026中国医美护肤产品行业发展与未来趋势蓝皮书:射频、胶原蛋白、PDRN与肉毒素|附90+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能
imbackneverdie41 分钟前
2026国自然项目申请指南发布,今年有什么新举措?
人工智能·科研·博士·国自然·ai工具·国家自然科学基金
m0_737302581 小时前
智能化:AI 驱动的全生命周期管理
人工智能
人工智能AI技术1 小时前
【Agent从入门到实践】11 执行模块:Agent如何“完成动作”
人工智能
一招定胜负1 小时前
基于OpenCV的银行卡号识别项目实战
人工智能·opencv·计算机视觉
无代码专家1 小时前
低代码构建数据管理系统:选型逻辑与实践路径
人工智能·低代码