第一章 图像领域
1.1 深度学习算法模型
- YOLOx
- FastRCNN
- SSD
- VIT Transform
- Mask RCNN
- 图像分类系类算法
1.2 推理框架
- opencv的DNN模块
- TensorRT
- OpenVINO
- ONNX Runtime C++
第二章 音频领域
2.1 深度学习算法模型
-
Zipformer
-
Paraformer
-
Whisper(基于 Transformer 架构的深度学习模型,能够将语音转换为文本,支持多种语言的语音识别、语音翻译和语言识别任务)
-
VITS
2.2 推理框架
- sherpa-onnx(就像 TensorRT 或 OpenVINO 是推理引擎一样,Sherpa-ONNX 是专为语音任务优化的推理引擎)