《大模型进化论》第2章2节:从神经网络到预训练——近十年的显著突破与进展

2.2 大模型的发展历程:从神经网到预训练大模型

  1. 萌芽期(1950年-2005年):以CNN为代表的传统神经网络模型阶段

在人工智能的早期阶段,机器学习和神经网络的概念开始萌芽。研究者们主要关注于构建简单的模型来处理有限的数据集。卷积神经网络(CNN)的雏形在这一时期出现,但受限于计算能力和数据规模,这些模型主要处理相对简单的任务,如手写数字识别。这一阶段标志着神经网络研究的起点,为后续的发展奠定了基础。

这个阶段的代表性公司有两家:

AT&T Bell Labs:是早期神经网络研究的先驱,其中包括对感知机的研究,为后来的神经网络打下了基础。

Yann LeCun:在AT&T Bell Labs工作期间,提出了LeNet-5卷积神经网络,用于手写数字识别,是早期神经网络的重要代表。

  1. 探索沉淀期(2006年-2019年):以Transformer为代表的全新神经网络模型阶段

真正大模型的历史还要从2006 年 Deep Learning 首次在Science上发表开始。随着计算能力的提升和大规模数据集的可用性,深度学习开始得到广泛关注。神经网络结构变得更加复杂和深层,如深度卷积神经网络(DCNN)、循环神经网络(RNN)等。这一阶段出现了多种新的模型架构,如CNN在图像识别中的广泛应用,RNN在处理序列数据中的成功应用。同时,生成对抗网络(GAN)的提出也为生成模型的发展奠定了基础。

2012 年,AlexNet 战胜 ImageNet 这一标志性事件,引发了行业对深度学习 的关注和研究,而谷歌、百度等行业先行者也是在这一时期开始重视 AI 的发展。 2013 年,Google Brain 项目发布了深度学习模型 DistBelief,为大规模分布式训 练奠定基础。2014 年,被誉为 21 世纪最强大算法模型之一的 GAN(对抗式生成 网络)诞生,标志着深度学习进入了生成模型研究的新阶段。特别是2017年,google基于自注意力机制的Transformer架构的提出,在自然语言处理领域取得了重大突破,成为GPT发展的基础,为后续的大型预训练模型的发展铺平了道路。

这个阶段的代表性公司有三家:

Google:2014年提出了Word2Vec,极大地推动了自然语言处理领域的发展。

OpenAI:在2018年发布了GPT-1,这是第一个基于Transformer架构的预训练语言模型,为后续的自然语言生成任务打下了基础,标志着预训练模型在自然语言处理领域的兴起,OpenAI也成为了现阶段大模型发展的引领者

DeepMind:在2017年提出了Transformer架构

相关推荐
Blossom.1184 分钟前
使用Python和Scikit-Learn实现机器学习模型调优
开发语言·人工智能·python·深度学习·目标检测·机器学习·scikit-learn
scdifsn1 小时前
动手学深度学习12.7. 参数服务器-笔记&练习(PyTorch)
pytorch·笔记·深度学习·分布式计算·数据并行·参数服务器
DFminer1 小时前
【LLM】fast-api 流式生成测试
人工智能·机器人
郄堃Deep Traffic2 小时前
机器学习+城市规划第十四期:利用半参数地理加权回归来实现区域带宽不同的规划任务
人工智能·机器学习·回归·城市规划
海盗儿2 小时前
Attention Is All You Need (Transformer) 以及Transformer pytorch实现
pytorch·深度学习·transformer
GIS小天2 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
阿部多瑞 ABU3 小时前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试
cnbestec3 小时前
Xela矩阵三轴触觉传感器的工作原理解析与应用场景
人工智能·线性代数·触觉传感器
不爱写代码的玉子3 小时前
HALCON透视矩阵
人工智能·深度学习·线性代数·算法·计算机视觉·矩阵·c#
sbc-study3 小时前
PCDF (Progressive Continuous Discrimination Filter)模块构建
人工智能·深度学习·计算机视觉