《大模型进化论》第2章2节：从神经网络到预训练——近十年的显著突破与进展

2.2 大模型的发展历程：从神经网到预训练大模型

萌芽期（1950年-2005年）：以CNN为代表的传统神经网络模型阶段

在人工智能的早期阶段，机器学习和神经网络的概念开始萌芽。研究者们主要关注于构建简单的模型来处理有限的数据集。卷积神经网络（CNN）的雏形在这一时期出现，但受限于计算能力和数据规模，这些模型主要处理相对简单的任务，如手写数字识别。这一阶段标志着神经网络研究的起点，为后续的发展奠定了基础。

这个阶段的代表性公司有两家：

AT&T Bell Labs：是早期神经网络研究的先驱，其中包括对感知机的研究，为后来的神经网络打下了基础。

Yann LeCun：在AT&T Bell Labs工作期间，提出了LeNet-5卷积神经网络，用于手写数字识别，是早期神经网络的重要代表。

探索沉淀期（2006年-2019年）：以Transformer为代表的全新神经网络模型阶段

真正大模型的历史还要从2006 年 Deep Learning 首次在Science上发表开始。随着计算能力的提升和大规模数据集的可用性，深度学习开始得到广泛关注。神经网络结构变得更加复杂和深层，如深度卷积神经网络（DCNN）、循环神经网络（RNN）等。这一阶段出现了多种新的模型架构，如CNN在图像识别中的广泛应用，RNN在处理序列数据中的成功应用。同时，生成对抗网络（GAN）的提出也为生成模型的发展奠定了基础。

2012 年，AlexNet 战胜 ImageNet 这一标志性事件，引发了行业对深度学习的关注和研究，而谷歌、百度等行业先行者也是在这一时期开始重视 AI 的发展。 2013 年，Google Brain 项目发布了深度学习模型 DistBelief，为大规模分布式训练奠定基础。2014 年，被誉为 21 世纪最强大算法模型之一的 GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。特别是2017年，google基于自注意力机制的Transformer架构的提出，在自然语言处理领域取得了重大突破，成为GPT发展的基础，为后续的大型预训练模型的发展铺平了道路。

这个阶段的代表性公司有三家：

Google：2014年提出了Word2Vec，极大地推动了自然语言处理领域的发展。

OpenAI：在2018年发布了GPT-1，这是第一个基于Transformer架构的预训练语言模型，为后续的自然语言生成任务打下了基础，标志着预训练模型在自然语言处理领域的兴起，OpenAI也成为了现阶段大模型发展的引领者

DeepMind：在2017年提出了Transformer架构