AI 小白也能懂:HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型工具数据集。学模型的必备。

主要包含:

  • Models(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术

  • Datasets(数据集):数据 集合。

  • Spaces(空间):社区。

  • Posts(发表):发表圈。

  • Docs(文档):文档。


任务从上到下:多模态计算机视觉自然语言处理音频表格强化学习

  • Multimodal 多模态

    • Audio-Text-to-Text(音频-文本-到-文本)
    • Image-Text-to-Text(图像-文本-到-文本)
    • Video-Text-to-Text(视频-文本-到-文本)
    • Any-to-Any(任意-到-任意)
  • Computer Vision 计算机视觉

    • Depth Estimation(深度估计)
    • Image Classification(图像分类)
    • Object Detection(目标检测)
    • Image Segmentation(图像分割)
    • Text-to-Image(文本到图像)
    • Image-to-Text(图像到文本)
    • Image-to-Image(图像到图像)
    • Image-to-Video(图像到视频)
  • Natural Language Processing(自然语言处理)

    • Text Classification(文本分类)
    • Text Generation(文本生成)
    • Text Ranking(文本排序)
  • Audio(音频)

    • Text-to-Speech(文本转语音)
    • Text-to-Audio(文本转音频)
  • Reinforement learning(强化学习)

    • Reinforement Learning(强化学习)
    • Robotics(机器人学习)
  • Other(其他)

    • Graph Machine learning(图机器学习)

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用,如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问,开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成流程,从加载模型到最终输出文本描述

py 复制代码
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语情感分析新闻分类识别人名识别地名基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构,包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。

py 复制代码
from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection

py 复制代码
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如:图像 转 文本

css 复制代码
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat
相关推荐
运器1231 小时前
【一起来学AI大模型】支持向量机(SVM):核心算法深度解析
大数据·人工智能·算法·机器学习·支持向量机·ai·ai编程
我爱一条柴ya3 小时前
【AI大模型】神经网络反向传播:核心原理与完整实现
人工智能·深度学习·神经网络·ai·ai编程
6confim3 小时前
AI原生软件工程师
人工智能·ai编程·cursor
阑梦清川4 小时前
claude code-- 基于Claude 4 模型的智能编程工具,重塑你的编程体验
ai编程·claude·claude code
阿星AI工作室6 小时前
AI产品经理必看的大模型微调劝退指南丨实战笔记
人工智能·产品经理·ai编程
qiyue776 小时前
AI编程专栏(四) - 提示词技术,如何写编程提示词
前端·ai编程
droidHZ7 小时前
第一次赚美元!纯新手深度复盘网站出海,一文掌握全流程
前端·ai编程·next.js
cpp加油站7 小时前
Trae近期上新功能速览,国内版支持图片上传,新增进程资源管理器功能
ai编程·trae
cpp加油站7 小时前
我用Trae写了一个utools插件-灵感捕手,帮你捕捉转瞬即逝的灵感
ai编程·trae
小兵张健19 小时前
武汉拿下 23k offer 经历
java·面试·ai编程