HuggingFace Transformers 是个宝库!📚
截至目前,它支持的模型非常多,涵盖了 NLP(自然语言处理) 、CV(计算机视觉) 、音频(语音识别、合成) 、多模态(文本+图片) 等领域。
而且 HuggingFace 不只是"模型集市",它还是深度学习模型的"超市",只要你想用的,几乎都能找到!
1. 📖 文本(NLP)模型
➡️ 通用语言模型
| 模型名称 |
简介 |
| BERT |
最经典的预训练模型,擅长分类、NER、问答等 |
| RoBERTa |
BERT 改进版,更强更快 |
| ALBERT |
参数更少,速度更快,轻量级 |
| ELECTRA |
高效小模型,训练快,效果好 |
| DeBERTa |
微软发布,结构优化,效果更强 |
| ERNIE |
百度研发,知识增强预训练,适合中文 |
➡️ 生成式模型(文本生成)
| 模型名称 |
简介 |
| GPT-2/3 |
文本生成,应用于对话、创作 |
| ChatGPT |
(OpenAI 接口,非 HuggingFace 自带) |
| GPT-Neo/GPT-J |
EleutherAI 开源替代 GPT-3,性能不错 |
| GPT-4(API 接口) |
暂无开源版本,调用需 API |
| OPT / LLaMA |
Meta 的大模型开源项目 |
| Qwen |
阿里达摩院开源的千亿级模型,支持中文/多语言 |
| Baichuan |
百川智能发布的多语言模型,适合RAG |
| ChatGLM |
智谱AI推出,中文友好,RAG 本地化首选 |
| MPT |
MosaicML 的模型,擅长文本生成 |
| T5 / mT5 |
Google 的文本到文本(Text-to-Text)模型 |
| UL2 |
Google 新一代生成模型,训练目标统一 |
➡️ 文本嵌入(Embedding)
| 模型名称 |
简介 |
| SBERT |
Sentence-BERT,句子嵌入,适合相似度、检索 |
| SimCSE |
轻量高效的无监督句子嵌入 |
| Text2Vec |
中文优化嵌入模型 |
| BAAI/BGE |
通用向量模型,检索、问答首选 |
| M3E |
中英文双语嵌入 |
| GTE |
Google 的多语言文本嵌入模型 |
➡️ 问答模型(Question Answering)
| 模型名称 |
简介 |
| DistilBERT-QA |
轻量级问答模型 |
| RoBERTa-QA |
强化的问答系统 |
| ChatGLM |
自带知识库问答能力 |
| Qwen-Chat |
通用问答,文档分析 |
➡️ 文本分类、情感分析
| 模型名称 |
简介 |
| BERT / RoBERTa |
标准文本分类模型 |
| ELECTRA |
轻量快速分类模型 |
| ERNIE |
中文领域分类 |
2. 👀 视觉模型(CV)
➡️ 图像分类
| 模型名称 |
简介 |
| ViT |
Vision Transformer,图像分类强模型 |
| Swin Transformer |
分层视觉模型,图像分析优秀 |
| ResNet |
CNN 网络经典,仍广泛使用 |
➡️ 图像生成
| 模型名称 |
简介 |
| Stable Diffusion |
文生图模型,图片生成主流 |
| DALL-E |
OpenAI 出品的文生图模型(接口/API) |
| Latent Diffusion |
多模态生成模型 |
➡️ 多模态
| 模型名称 |
简介 |
| CLIP |
图文检索、跨模态模型 |
| BLIP |
图文生成、问答等多模态任务 |
| Flamingo |
DeepMind 跨模态大模型 |
| OFA |
One For All,适配OCR、VQA、图文任务 |
3. 🎧 音频模型(ASR、TTS)
➡️ 自动语音识别(ASR)
| 模型名称 |
简介 |
| Whisper |
OpenAI 出品的语音识别模型,支持多语言 |
| Wav2Vec2.0 |
Facebook 的语音识别模型 |
➡️ 文本转语音(TTS)
| 模型名称 |
简介 |
| ESPnet-TTS |
日本开发的语音合成工具 |
| FastSpeech |
轻量高效的文本转语音 |
4. 🧠 多模态大型模型(LLM+)
| 模型名称 |
简介 |
| LLaMA / LLaMA2 |
Meta 大模型,适合二次开发 |
| Baichuan 2 |
中文和多语言模型,商业授权清晰 |
| Qwen 1.5 |
阿里大模型,支持推理、创作等多任务 |
| Yi 1.5 |
智谱AI 模型,适合文生文和推理 |
| InternLM 2 |
商汤AI大模型,商用友好 |
5. 🔧 工具类模型
| 模型类型 |
模型/工具 |
| 文本摘要 |
Bart , Pegasus , LongT5 |
| 文本纠错 |
MacBERT , Text2Text-chinese |
| OCR |
LayoutLM , Donut |
| 代码生成 |
CodeGen , StarCoder , CodeLlama |
✅ 如何查找 HuggingFace 模型?
➡️ 官方网站
👉 https://huggingface.co/models
➡️ 搜索技巧
- 分类搜索(任务):
task: text-classification
- 按语言筛选(中文):
language: Chinese
- 最多人用(热度排序):
downloads / likes
- 特定模型搜索:
qwen、chatglm、bge 等关键词
✅ 任务 vs 推荐模型速查表
| 任务 |
推荐模型 |
| 文本分类 |
BERT / RoBERTa / DeBERTa |
| 文本生成 |
GPT-2 / GPT-J / ChatGLM |
| 文本摘要 |
BART / PEGASUS / LongT5 |
| 文本嵌入 |
SBERT / BGE / M3E / Text2Vec |
| 问答系统 |
ChatGLM / Qwen / LLaMA2-Chat |
| 图像分类 |
ViT / Swin Transformer |
| 图文检索 |
CLIP / BLIP |
| 语音识别 |
Whisper / Wav2Vec2.0 |
| 图像生成 |
Stable Diffusion / DALL-E |
✅ 常见开源大模型合集(近期流行)
| 模型 |
领域 |
特点 |
| ChatGLM3 |
中文大模型 |
多任务、RAG 友好 |
| Qwen1.5 |
中文/多语 |
代码、推理、问答全能 |
| Baichuan2 |
多语种 |
商业可用,性能稳定 |
| InternLM2 |
通用模型 |
长文本处理强 |
| Yi 1.5 |
智谱AI |
LLaMA2 优化分支 |
bash
复制代码
pip install transformers
➡️ 模型加载 & 推理(通用套路)
python
复制代码
from transformers import AutoTokenizer, AutoModel
model_name = "BAAI/bge-large-zh" # 也可以换成别的
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
text = "你好,世界"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
🚀 结论
HuggingFace Transformers 就像 AI 工具箱
✅ NLP ✅ CV ✅ 音频 ✅ 多模态 ✅ 工具模型
几乎都有!还能轻松组合,自由调用。