深度学习,Top算法,2024年末总结

1.Transformer：Transformer是近年来非常流行的深度学习模型之一，它在自然语言处理领域发挥了重要作用，成为了许多NLP任务的基准模型。这是一个让人又爱又恨的算法。它在自然语言处理领域大放异彩，特别是在机器翻译方面，简直就像个翻译魔法师！其中最著名的例子是Google的BERT模型，它在多项NLP任务中都取得了很好的效果，包括情感分析、问答系统等。这就是一个妥妥的人工智能客服产品core部分。

**GANs (生成对抗网络)：**GANs是一种生成模型，它通过与一个对抗网络进行博弈来生成高质量的数据。GANs在图像生成、图像转换等领域有广泛应用。这个算法就像是魔法界的炼金术师，能把无生命的描述变成活生生的图像，让你惊呼"这是真实的吗？"例如，使用GANs可以生成各种风格的图片，包括将一幅图片转换成另一种风格的照片等。当然，除了图片特征以外，GANs也可以用来深度学习和模仿某种生物的声纹。

**Variational Autoencoders (变分自编码器)：**VAE是一种生成模型，它通过学习数据分布的特征来生成新的数据。VAE在生成模型、降维等领域有广泛应用。如果说VAE是个画家，那它绝对是毕加索级别的。通过学习数据分布的特征，它能生成各种奇特的数据，让你大开眼界！例如，可以使用VAE生成符合特定主题的图片，如特定风格的图片、特定主题的图片等，妥妥的生成式插画家。未来AI画工程设计图，就得靠VAE算法。

**Convolutional Neural Networks (卷积神经网络)：**尽管CNN已经存在很长时间了，但它仍然是非常重要的深度学习模型之一，在图像分类、目标检测等领域有广泛应用。这个算法在图像处理领域可是个老手，无论是分类、检测还是识别，它都能搞定，就像个超级侦探！例如，可以使用CNN对图片进行分类，识别出图片中的物体、人脸等。这决定了CNN算法在医疗领域，比如疾病病灶位置图片的智能诊断；或者在公共安全领域和军事，比如人工智能摄像头、人脸识别系统方面将会发挥比较多的作用。

**Recurrent Neural Networks (循环神经网络)：**RNN是一种用于处理序列数据的深度学习模型，它在自然语言处理、语音识别等领域有广泛应用。如果你有一大堆话语或文本需要理解，RNN就是你的人工智能秘书。它可以帮你分析语音、文本等序列数据，真是超级厉害！例如，可以使用RNN对语音信号进行识别，将其转换成文本形式。在语音转写或者文本识别方面可以发挥巨大作用，比如大家可以基于该算法开发AI自动生成的会议纪要工具。

**Transformers (注意力机制)：**注意力机制是一种重要的深度学习技术，它允许模型更好地理解序列数据中的长期依赖关系。注意力机制在自然语言处理、语音识别等领域有广泛应用。这个算法有点儿神秘，就像是个间谍，能帮你偷取别人的心思。在情感分析、问答系统等领域，它可是个高手！例如，可以使用Transformers模型将一种语言的句子自动翻译成另一种语言，这就是目前很多AI即时翻译工具的Core算法。

**Deep Belief Networks (深度信念网络)：**DBN是一种用于深度学习的概率模型，它可以学习到数据的高层次特征表示。DBN在图像分类、目标检测等领域有广泛应用。DBN是个化学家，能帮你分析复杂的化学分子结构。在化学分子设计等领域，它可是个不可或缺的角色！例如，可以使用DBN对图像进行分割，识别出图像中的各个物体和区域。当然，也可以用来进行创新药制药领域的分子设计和药物有效性验证模拟实验。

**Graph Neural Networks (图神经网络)：**GNN是一种用于处理图结构数据的深度学习模型，它可以学习到图中的节点和边的特征表示。GNN在社交网络分析、化学分子设计等领域有广泛应用。如果你想理解社交网络中人们的喜好和行为，GNN绝对是你的得力助手。它可以帮你分析图结构数据，就像是个社会学家！例如，可以使用GNN分析社交网络中的用户关系和行为模式，挖掘出有用的信息以便更好地发掘用户的商业价值。这也是马斯克的"X"正在使用的技术。

**Self-supervised Learning (自监督学习)：**自监督学习是一种深度学习的方法，它通过无标签数据进行训练来学习到数据的内在结构和模式。自监督学习在自然语言处理、计算机视觉等领域有广泛应用。自监督学习就像是个自恋的作家，通过自我创作来提升自己的写作水平。在文本生成等领域，它可是个写作高手。例如，可以使用自监督学习模型生成与输入文本相似的文章或句子。小学生抄袭（洗稿）人家论文时的最爱。

**Meta-learning (元学习)：**元学习是一种深度学习的方法，它可以让模型快速适应新的任务和数据分布。元学习在自然语言处理、计算机视觉等领域有广泛应用。例如，可以使用元学习对预训练模型进行微调，使其适应特定的任务和数据集。元学习就像是个魔术师，能帮你快速适应各种任务和环境。在图像分类、语音识别等领域，它可是个百变魔术师！在机器人控制任务中，可以使用强化元学习来自动推断出适合不同环境的控制策略。开发自动驾驶系统咱们就得多多少少搞点微调以适应雨雪天气啊、地面颠簸啊之类的情况。

AlexNet （深度学习复兴的源头）
GAN（左右互博的思想到现在依然很惊艳）
Attention （提出注意力机制并应用于NLP）
ResNet （残差思想简洁有效，广泛应用于深度学习各个领域，毋庸置疑的top10）
UNet (对称编解码器架构，泛化性能很好，广泛应用于医疗遥感以及AIGC领域)
BatchNormalization （有效加快模型收敛并防止过拟合）
YOLO系列（端到端目标检测模型，简洁优雅高效，落地最广泛的目标检测模型）
Transformer （同样毋庸置疑，大模型基石）
GPT系列 (基于Transformer解码器的大语言模型，掀起LLM浪潮的领航员)
StableDiffusion （图像生成里程碑，与LLM并列的AIGC模型）

VGG，Seq2seq，Faster-RCNN，Mask RCNN，Bert，ViT，Swin Transformer，DALLE，CLIP，GCN，GAT，RoPE等，这些都是非常经典的算法。还有一些很有创新性的，

DiT, RWKV，Mamba，LORA等

Graph Convolutional Network (GCN)

这里指的是广义的图卷积网络，一共包括 Spectral Networks and Locally Connected Networks on Graphs，Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering，Semi-Supervised Classification with Graph Convolutional Networks 三篇论文。

Spectral CNN 是开山之作，基于谱图理论首次将卷积推广到了图网络。

Chebyshev Spectral CNN 用拉普拉斯矩阵的Chebyshev多项式来代替滤波函数，极大减少了计算量。

GCN 则是集大成者，继续做减法，最终将图卷积浓缩成一个矩阵，优美到了极致。

可惜自此之后的 GNN 再无图卷积，只剩消息传递。

PointNet

用神经网络处理点云的开山之作，解决了点云数据的无序性和不规则性，从此三维视觉进入深度学习时代。

Neural Radiance Field (NeRF)

用神经网络学习空间中每一点的光场，然后用体渲染积分成图像，简直是暴力美学。

虽说三维视觉领域又多了个新方向，但搞这个掉头发很快。

Deep Q-Network (DQN)

毋庸置疑的经典，将 Q-learning 的天赋带到深度学习，产生了很好的化学反应，强得不可思议。

AlphaGo

蒙特卡洛树搜索+深度学习，击败柯洁算得上是 AI 领域的历史性时刻。

Proximal Policy Optimization (PPO)

Schulman 在 TRPO 中引入了信赖域来缓解学习不稳定的问题，但是计算开销太大，于是他又将其简化成了 PPO，显然他觉得这种改进工作贡献不大，甚至都没投论文，就挂在Arxiv上。

没想到的是 PPO 太好用了，简单稳定高效，搞应用的人手一个，甚至 ChatGPT 也用的 PPO。

Neural Tangent Kernel (NTK)

解释了神经网络（在无限宽的情况下）的训练为什么能稳定收敛，为什么收敛性与网络的初始化无关，而与网络的结构有关。