AI 小白也能懂:HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型工具数据集。学模型的必备。

主要包含:

  • Models(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术

  • Datasets(数据集):数据 集合。

  • Spaces(空间):社区。

  • Posts(发表):发表圈。

  • Docs(文档):文档。


任务从上到下:多模态计算机视觉自然语言处理音频表格强化学习

  • Multimodal 多模态

    • Audio-Text-to-Text(音频-文本-到-文本)
    • Image-Text-to-Text(图像-文本-到-文本)
    • Video-Text-to-Text(视频-文本-到-文本)
    • Any-to-Any(任意-到-任意)
  • Computer Vision 计算机视觉

    • Depth Estimation(深度估计)
    • Image Classification(图像分类)
    • Object Detection(目标检测)
    • Image Segmentation(图像分割)
    • Text-to-Image(文本到图像)
    • Image-to-Text(图像到文本)
    • Image-to-Image(图像到图像)
    • Image-to-Video(图像到视频)
  • Natural Language Processing(自然语言处理)

    • Text Classification(文本分类)
    • Text Generation(文本生成)
    • Text Ranking(文本排序)
  • Audio(音频)

    • Text-to-Speech(文本转语音)
    • Text-to-Audio(文本转音频)
  • Reinforement learning(强化学习)

    • Reinforement Learning(强化学习)
    • Robotics(机器人学习)
  • Other(其他)

    • Graph Machine learning(图机器学习)

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用,如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问,开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成流程,从加载模型到最终输出文本描述

py 复制代码
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语情感分析新闻分类识别人名识别地名基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构,包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。

py 复制代码
from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection

py 复制代码
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如:图像 转 文本

css 复制代码
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat
相关推荐
野生的码农2 小时前
放过自己,降低预期,及时行乐
android·ai编程
程序员陆业聪2 小时前
裸奔的 AI 助手和装备齐全的 AI 助手,根本不是同一个东西
ai编程
南木元元6 小时前
别只会用 Cursor!它的提示词工程才是真正的大招
ai编程·cursor
對玛祷至昏7 小时前
Trae AI编程入门
ai编程
小徐敲java7 小时前
opencode配置本地模型
ai编程
序舟归桁8 小时前
OpenClaw 多智能体在编程领域的实践与挑战
ai编程
序舟归桁8 小时前
Harness Engineering:AI Agent 时代,工程师的新核心能力
ai编程
攻城狮_老李8 小时前
从零开始理解 Agent Skills:动手实践 —— 创建第一个 Skill
openai·agent·ai编程
甲维斯8 小时前
来看看GLM5.1到底升级了什么!
ai编程