神经网络常用模型与应用

北极象2023-09-19 23:40

上手AI的一个捷径就是了解和使用各种网络模型，结合实际场景去打造自己的应用。神经网络模型是人类的共同财富。

神经网络

神经网络可以分为三种主要类型：前馈神经网络、反馈神经网络和图神经网络。

前馈神经⽹络（feedforward neural network）是⼀种简单的神经⽹络，也被称为多层感知机（multi-layer perceptron，简称 MLP），其中不同的神经元属于不同的层，由输⼊层-隐藏层-输出层构成，信号从输⼊层往输出层单向传递，中间无反馈，其目的是为了拟合某个函数，由⼀个有向无环图表示。前馈神经⽹络中包含激活函数（sigmoid 函数、tanh 函数等）、损失函数（均⽅差损失函数、交叉熵损失函数等）、优化算法（BP 算法）等。常⽤的模型结构有：感知机、BP 神经⽹络、全连接神经⽹络、卷积神经⽹络、RBF 神经⽹络等。

反馈神经网络（feedback neural network）的输出不仅与当前输入以及网络权重有关，还和网络之前的输入有关。它是一个有向循环图或是无向图，具有很强的联想记忆能力和优化计算能力。常⽤的模型结构有：RNN、Hopfield⽹络、受限玻尔兹曼机、LSTM 等。

图（graph）是⼀种在拓扑空间内按图结构组织来关系推理的函数集合，包括社交⽹络、知识图谱、分⼦图神经⽹络等。图神经网络通常有以下几种网络模型：图卷积网络、图自编码器、图生成网络、图时空网络、图注意力网络。

图像识别

AlexNet、GoogLeNet、VGG、ResNet、ResNeXt、DenseNet和SENet。

文本分类

Tf-Idf、Word2Vec和BERT。

语音识别

ASRT：基于深度学习的中文语音识别系统，采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音
DeepSpeechRecognition：使用CNN+DNN+CNN
end2end_chinese_speech_recognition：一个开源小模型
Wenet：工业开源落地做的比较成熟的模型
whisper：openai的语音模型
pycorrector：语音纠错
pyttsx3：文本转语音
阿里的Paraformer

参考文献

TODO