AI 小白也能懂：HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型、工具、数据集。学模型的必备。

主要包含：

Models（模型）：模型包括CV（Computer Vision 计算机视觉）通过摄像头、图像、视频等视觉输入输出、NLP（Natural Language Processing 自然语言处理）计算机理解、解释和生成人类语言的技术。
Datasets（数据集）：数据集合。
Spaces（空间）：社区。
Posts（发表）：发表圈。
Docs（文档）：文档。

任务从上到下：多模态、计算机视觉、自然语言处理、音频、表格、强化学习。

Multimodal 多模态
- Audio-Text-to-Text（音频-文本-到-文本）
- Image-Text-to-Text（图像-文本-到-文本）
- Video-Text-to-Text（视频-文本-到-文本）
- Any-to-Any（任意-到-任意）
Computer Vision 计算机视觉
- Depth Estimation（深度估计）
- Image Classification（图像分类）
- Object Detection（目标检测）
- Image Segmentation（图像分割）
- Text-to-Image（文本到图像）
- Image-to-Text（图像到文本）
- Image-to-Image（图像到图像）
- Image-to-Video（图像到视频）
Natural Language Processing（自然语言处理）
- Text Classification（文本分类）
- Text Generation（文本生成）
- Text Ranking（文本排序）
Audio（音频）
- Text-to-Speech（文本转语音）
- Text-to-Audio（文本转音频）
Reinforement learning（强化学习）
- Reinforement Learning（强化学习）
- Robotics（机器人学习）
Other（其他）
- Graph Machine learning（图机器学习）

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用，如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态的Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的，点进去，看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问，开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 ：这是一个完整的音频描述生成流程，从加载模型到最终输出文本描述。

py 复制代码

# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型（一个大型音频语言模型）
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器（处理文本和音频输入）
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板，包含特殊标记：
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件：
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频，采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据：
# - text参数：提示文本
# - audios参数：加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述（限制最大长度为30个token）
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本：
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果（批量处理中的第一个样本）
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有：推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语、情感分析、新闻分类、识别人名、识别地名、基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构，包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集，比如说awesome-chatgpt-prompts这个数据集。

py 复制代码

from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者，如果数据集有训练/验证/测试分割，则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集，就可以拿去训练自己的模型，比如训练模型deberta-v3-base-prompt-injection：

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection。

py 复制代码

# 导入 Hugging Face 的 AutoTokenizer，用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称（这里是微软的 DeBERTa-v3-base 模型）
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列（0/1）
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如：图像转文本：

css 复制代码

girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat