上手AI的一个捷径就是了解和使用各种网络模型,结合实际场景去打造自己的应用。神经网络模型是人类的共同财富。
神经网络
神经网络可以分为三种主要类型:前馈神经网络、反馈神经网络和图神经网络。
前馈神经⽹络(feedforward neural network)是⼀种简单的神经⽹络,也被称为多层感知机(multi-layer perceptron,简称 MLP),其中不同的神经元属于不同的层,由输⼊层-隐藏层-输出层构成,信号从输⼊层往输出层单向传递,中间无反馈,其目的是为了拟合某个函数,由⼀个有向无环图表示。前馈神经⽹络中包含激活函数(sigmoid 函数、tanh 函数等)、损失函数(均⽅差损失函数、交叉熵损失函数等)、优化算法(BP 算法)等。常⽤的模型结构有:感知机、BP 神经⽹络、全连接神经⽹络、卷积神经⽹络、RBF 神经⽹络等。
反馈神经网络(feedback neural network)的输出不仅与当前输入以及网络权重有关,还和网络之前的输入有关。它是一个有向循环图或是无向图,具有很强的联想记忆能力和优化计算能力。常⽤的模型结构有:RNN、Hopfield⽹络、受限玻尔兹曼机、LSTM 等。
图(graph)是⼀种在拓扑空间内按图结构组织来关系推理的函数集合,包括社交⽹络、知识图谱、分⼦图神经⽹络等。图神经网络通常有以下几种网络模型:图卷积网络、图自编码器、图生成网络、图时空网络、图注意力网络。
图像识别
AlexNet、GoogLeNet、VGG、ResNet、ResNeXt、DenseNet和SENet。
文本分类
Tf-Idf、Word2Vec和BERT。
语音识别
- ASRT:基于深度学习的中文语音识别系统,采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音
- DeepSpeechRecognition: 使用CNN+DNN+CNN
- end2end_chinese_speech_recognition:一个开源小模型
- Wenet:工业开源落地做的比较成熟的模型
- whisper:openai的语音模型
- pycorrector:语音纠错
- pyttsx3:文本转语音
- 阿里的Paraformer
参考文献
TODO